LLM2D

摘要

arXiv:2502.06217v1 类型: cross 摘要：最近在语言模型方面的进展在各种基准测试中显著提高了数学推理能力。然而，大多数这些基准测试依赖于自动评估方法，只通过启发式方法比较最终答案，而不验证背后的原因步骤。这一限制导致了虚假正解解决方案，即模型可能产生正确的最终答案，但推理路径存在缺陷。在这篇论文中，我们系统地考察了语言模型在数学问题解决中虚假正解解决方案的常见程度。我们分析了这个问题在不同开源模型、不同难度级别的数据集以及不同解码策略下的特点和影响范围。具体来说，我们探索了虚假正解如何影响语言模型的推理时间缩放行为。我们的实验结果显示：(1) 虚假正解解决方案在不同模型、数据集和解码方法中普遍存在，(2) 基于采样的推理时间缩放方法并不能缓解这一问题，(3) pass@N 评估指标对虚假正解更为敏感，暗示其缩放上限远低于自动评估所示。此外，我们分析了具体实例中的虚假正解，并讨论了在这些条件下自改进技术和合成数据生成潜在的局限性。