LLM2D

摘要

arXiv:2502.07154v2 宣布类型：替换交叉摘要：大型语言模型（LLMs）的最近进展突显了将测试时计算能力扩展到复杂任务（如数学推理和代码生成）中以实现强大性能的能力。这提出了一个关键问题：在后续的测试时计算策略和预算下，应该如何修改模型训练以优化性能？为了探讨这个问题，我们集中在pass@N上，这是一种简单的测试时策略，它在N个独立样本中搜索正确答案。我们惊奇地发现，使用交叉熵（CE）损失进行训练可能会与pass@N不一致，具体表现为随着训练时间的延长，pass@N准确性下降。我们将这种不一致的根源归因于由CE引起的模型过度自信，并通过实验验证了过度自信作为通过pass@N扩展测试时计算能力的障碍。此外，我们建议一种原理上更符合pass@N的训练损失，通过限制模型信心并恢复pass@N测试性能，更好地匹配pass@N。我们的算法在多种场景下展示了在MATH和MiniF2F基准上的数学推理改进表现：（1）回答数学问题；（2）通过搜索不同形状的证明树来证明定理。总体而言，我们的工作强调了重新设计LLM开发中两个传统上独立阶段的重要性：训练时协议和测试时搜索与推理策略。