摘要
arXiv:2502.11574v1 信息类型: 新颖
摘要:本文通过使用50个新构建的中学生水平的词语问题,调查了大型语言模型(LLMs)的数学推理能力。与以往只关注答案正确性的研究不同,我们系统地分析了最终答案和解题步骤,以识别推理错误。我们评估了八种最先进的模型——包括Mixtral、Llama、Gemini、GPT-4o以及OpenAI的o1变体——结果显示,虽然更新的模型(例如o3-mini、deepseek-r1)在准确性上更高,但所有模型在空间推理、战略规划和算术方面都表现出错误,有时会通过不正确的逻辑得出正确答案。常见的失败模式包括不合情理的假设、过度依赖数字模式以及难以将物理直觉转化为数学步骤。手动分析显示,尽管模型具备广泛的数学知识,但它们在需要多步骤推理或现实生活知识的问题上仍存在困难。我们的结果强调了评估推理过程而非仅仅答案的重要性,并警告不要过于高估LLMs的问题解决能力。该研究凸显了LLMs在通用化能力方面的持续差距,强调了在结构化推理和约束处理方面进行针对性改进的必要性。