LLM2D

摘要

arXiv:2502.07154v1 宣告类型: cross 摘要: 大型语言模型（LLMs）的最新进展突显了将测试时计算扩展到实现复杂任务（如数学推理和代码生成）上强大性能的能力。这提出一个关键问题：在后续测试时计算策略和预算下，应该如何修改模型训练以优化性能？为此，我们关注于pass@N，这是一种简单的测试时策略，它在N个独立样本中搜索正确答案。我们惊讶地发现，使用交叉熵（CE）损失进行训练可能会与pass@N不一致，因为在更长时间的训练后，pass@N的准确性会下降。我们从CE引起的模型过自信角度解释了这一不一致的起源，并通过实验验证了过自信是pass@N扩展测试时计算的一个障碍。此外，我们建议一种原理上改进的训练损失，这种损失更适合pass@N，因为它限制了模型的自信并挽救了pass@N的测试性能。我们的算法在MATH和MiniF2F基准上展示了改进的数学推理能力，场景包括：（1）回答数学问题；和（2）通过搜索不同形状的证明树来证明定理。总体而言，我们的工作强调了优化LLM开发中两个传统上分开阶段的重要性：训练时协议和测试时搜索与推理策略。