摘要
arXiv:2502.06453v2 更新类型: replace-cross
摘要:大型语言模型在具有挑战性的数学推理任务上展现了令人印象深刻的性能,这引发了关于性能是通过真正的推理能力还是通过记忆实现的讨论。为了探讨这一问题,先前的工作通过简单扰动构建了数学基准,即在问题中进行修改(仍保持解题模式不变)。然而,尚未有人研究根本扰动,这种修改会从根本上改变问题的性质,使得原来的解题步骤不再适用。为了弥补这个差距,我们分别通过简单扰动和根本扰动构造了MATH-P-Simple和MATH-P-Hard。每个数据集均包含279个从MATH数据集(Hendrycksmath等人,2021)中尚未解决的最难级别(最高难度级别)问题中派生出的扰动数学问题。我们在各种模型上观察到了MATH-P-Hard上的显著性能下降,包括o1-mini(-16.49%)和gemini-2.0-flash-thinking(-12.9%)。我们也提出了一个关于新形式的记忆化问题,即模型盲目应用学到的问题解决技能,而未评估它们在修改后的上下文中的适用性。这个问题在使用原始问题进行上下文学习时被放大。我们呼吁研究努力解决这一挑战,这对于开发更稳健和可靠的推理模型至关重要。