LLM2D

摘要

arXiv:2502.11574v1 信息类型: 新颖摘要：本文通过使用50个新构建的中学生水平的词语问题，调查了大型语言模型（LLMs）的数学推理能力。与以往只关注答案正确性的研究不同，我们系统地分析了最终答案和解题步骤，以识别推理错误。我们评估了八种最先进的模型——包括Mixtral、Llama、Gemini、GPT-4o以及OpenAI的o1变体——结果显示，虽然更新的模型（例如o3-mini、deepseek-r1）在准确性上更高，但所有模型在空间推理、战略规划和算术方面都表现出错误，有时会通过不正确的逻辑得出正确答案。常见的失败模式包括不合情理的假设、过度依赖数字模式以及难以将物理直觉转化为数学步骤。手动分析显示，尽管模型具备广泛的数学知识，但它们在需要多步骤推理或现实生活知识的问题上仍存在困难。我们的结果强调了评估推理过程而非仅仅答案的重要性，并警告不要过于高估LLMs的问题解决能力。该研究凸显了LLMs在通用化能力方面的持续差距，强调了在结构化推理和约束处理方面进行针对性改进的必要性。