摘要
arXiv:2504.01995v2 通知类型: 替换
摘要:近年来,大规模语言模型(LLMs)在数学推理任务上取得了令人印象深刻的进步。然而,当前的评估基准主要侧重于最终答案的准确性,往往忽视了数学问题求解中至关重要的逻辑严谨性。关于最新一代语言模型能够解决数学奥林匹克级别问题的声明需要更仔细的审视。为了探索这一问题,我们对语言模型生成的证明进行了定性和定量的人类评估,并开发了一种自动评估其推理能力的框架。我们的研究揭示,当前的语言模型在解决具有挑战性的奥林匹克级别问题时明显力不从心,经常无法区分正确的数学推理与明显错误的解决方案。我们的分析表明,语言模型偶尔提供的正确最终答案往往源于模式识别或启发式捷径,而非真正的数学推理。这些发现强调了LLM在高级数学推理方面与人类专业知识之间存在的巨大差距,并强调了开发优先考虑得出答案过程中逻辑严谨性的评估标准的重要性,而非仅仅关注最终答案的正确性。