LLM2D
在扩展测试时计算量时重新思考微调:限制信心提高数学推理能力
Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning
作者: Feng Chen, Allan Raventos, Nan Cheng, Surya Ganguli, Shaul Druckmann
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2502.07154v2

摘要

arXiv:2502.07154v2 宣布类型:替换交叉 摘要:大型语言模型(LLMs)的最近进展突显了将测试时计算能力扩展到复杂任务(如数学推理和代码生成)中以实现强大性能的能力。这提出了一个关键问题:在后续的测试时计算策略和预算下,应该如何修改模型训练以优化性能?为了探讨这个问题,我们集中在pass@N上,这是一种简单的测试时策略,它在N个独立样本中搜索正确答案。我们惊奇地发现,使用交叉熵(CE)损失进行训练可能会与pass@N不一致,具体表现为随着训练时间的延长,pass@N准确性下降。我们将这种不一致的根源归因于由CE引起的模型过度自信,并通过实验验证了过度自信作为通过pass@N扩展测试时计算能力的障碍。此外,我们建议一种原理上更符合pass@N的训练损失,通过限制模型信心并恢复pass@N测试性能,更好地匹配pass@N。我们的算法在多种场景下展示了在MATH和MiniF2F基准上的数学推理改进表现:(1)回答数学问题;(2)通过搜索不同形状的证明树来证明定理。总体而言,我们的工作强调了重新设计LLM开发中两个传统上独立阶段的重要性:训练时协议和测试时搜索与推理策略。