LLM2D
MATH-Perturb:在艰难扰动下的LLMs数学推理能力基准测试
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations
作者: Kaixuan Huang, Jiacheng Guo, Zihao Li, Xiang Ji, Jiawei Ge, Wenzhe Li, Yingqing Guo, Tianle Cai, Hui Yuan, Runzhe Wang, Yue Wu, Ming Yin, Shange Tang, Yangsibo Huang, Chi Jin, Xinyun Chen, Chiyuan Zhang, Mengdi Wang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06453v1

摘要

arXiv:2502.06453v1 类别: cross 摘要: 大型语言模型在复杂的数学推理任务中表现出了令人印象深刻的能力,这引发了关于性能是否由真正的推理能力还是记忆能力实现的讨论。为了解决这一问题,之前的工作通过简单变形构建了数学基准,即修改问题但仍然保留了解决方案的基本推理模式。然而,没有任何工作探索了根本性变形,这种变形从根本上改变了问题的性质,使得原来的解决方案步骤不再适用。为了解这个差距,我们通过简单变形构建了 MATH-P-Simple,并通过根本性变形构建了 MATH-P-Hard。每个基准都包含源自 MATH 数据集 (Hendrycksmath 等,2021) 的最难(第 5 级)问题的 279 个变形数学问题。我们观察到在 MATH-P-Hard 上各种模型的表现显著下降,包括 o1-mini(-16.49%)和 gemini-2.0-flash-thinking(-12.9%)。我们还提到了一种新的记忆形式的问题,即模型不评估其解决方案技能在修改后情境中的适用性便盲目应用。这种问题在使用原始问题进行上下文学习时被放大了。我们呼吁研究努力来解决这一挑战,这对于开发更稳健和可靠的推理模型至关重要。