摘要
arXiv:2502.05234v1 类型: cross
摘要:多样本聚合策略,如大多数投票和N中选最优,广泛应用于当代大型语言模型(LLMs),以提高各种任务的预测准确性。在这个过程中,温度的选择是一个关键挑战,对模型性能有显著影响。现有的方法要么依赖于固定的默认温度,要么需要标注的验证数据进行调整,而这些数据往往稀缺且难以获取。本文通过使用多样本聚合策略,自动识别不同LLMs的(近)最优温度,而不依赖于特定任务的验证数据。我们对温度在性能优化中所起的作用进行了全面分析,考虑了模型架构、数据集、任务类型、模型大小和预测准确性之间的变化。此外,我们还提出了一种新的基于熵的自动温度优化度量标准,该标准在固定温度基准上表现更优。此外,我们引入了一个随机过程模型,以增强可解释性,提供对温度与模型性能之间关系的更深入洞察。