LLM2D
重思缩放测试时计算量时的微调:限制置信度提高数学推理能力
Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning
作者: Feng Chen, Allan Raventos, Nan Cheng, Surya Ganguli, Shaul Druckmann
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07154v1

摘要

arXiv:2502.07154v1 宣告类型: cross 摘要: 大型语言模型(LLMs)的最新进展突显了将测试时计算扩展到实现复杂任务(如数学推理和代码生成)上强大性能的能力。这提出一个关键问题:在后续测试时计算策略和预算下,应该如何修改模型训练以优化性能?为此,我们关注于pass@N,这是一种简单的测试时策略,它在N个独立样本中搜索正确答案。我们惊讶地发现,使用交叉熵(CE)损失进行训练可能会与pass@N不一致,因为在更长时间的训练后,pass@N的准确性会下降。我们从CE引起的模型过自信角度解释了这一不一致的起源,并通过实验验证了过自信是pass@N扩展测试时计算的一个障碍。此外,我们建议一种原理上改进的训练损失,这种损失更适合pass@N,因为它限制了模型的自信并挽救了pass@N的测试性能。我们的算法在MATH和MiniF2F基准上展示了改进的数学推理能力,场景包括:(1)回答数学问题;和(2)通过搜索不同形状的证明树来证明定理。总体而言,我们的工作强调了优化LLM开发中两个传统上分开阶段的重要性:训练时协议和测试时搜索与推理策略。