摘要
arXiv:2504.01995v1 通知类型: 新
摘要:近年来,大规模语言模型(LLMs)在数学推理任务上的进步令人印象深刻。然而,当前的评估基准主要集中在最终答案的准确性上,往往忽视了数学问题解决过程中至关重要的逻辑严谨性。关于最先进的LLMs能够解决数学奥林匹克级别的问题的说法需要进一步考察。为了探讨这一问题,我们对LLMs生成的证明进行了定性和定量的人类评估,并开发了一种自动评估其推理能力的框架。我们的研究揭示,当前的LLMs在解决具有挑战性的奥林匹克级别问题方面严重不足,经常无法区分正确的数学推理与明显错误的解决方案。我们还发现,LLMs偶尔提供的正确最终答案往往是基于模式识别或启发式捷径,而不是真正的数学推理。这些发现突显了LLMs在高级数学推理方面的性能与人类专家之间的巨大差距,并强调了制定优先考虑数学论证的严谨性和连贯性的评估标准的重要性,而不只是最终答案的正确性。