LLM2D

摘要

arXiv:2502.05234v1 类型: cross 摘要：多样本聚合策略，如大多数投票和N中选最优，广泛应用于当代大型语言模型（LLMs），以提高各种任务的预测准确性。在这个过程中，温度的选择是一个关键挑战，对模型性能有显著影响。现有的方法要么依赖于固定的默认温度，要么需要标注的验证数据进行调整，而这些数据往往稀缺且难以获取。本文通过使用多样本聚合策略，自动识别不同LLMs的（近）最优温度，而不依赖于特定任务的验证数据。我们对温度在性能优化中所起的作用进行了全面分析，考虑了模型架构、数据集、任务类型、模型大小和预测准确性之间的变化。此外，我们还提出了一种新的基于熵的自动温度优化度量标准，该标准在固定温度基准上表现更优。此外，我们引入了一个随机过程模型，以增强可解释性，提供对温度与模型性能之间关系的更深入洞察。