LLM2D
基于推理还是朗读:最新语言模型为何会在小学水平的推理问题上失败?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
作者: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00509v1

摘要

arXiv:2504.00509v1 类型:新论文 摘要:近年来,LLM基准测试从 elementary 学校级别的难度迅速提升到前沿问题,为我们科研人员编织了一个奇迹,似乎我们只需要几步之遥就能超越人类智能。但是,LLM们令人瞩目的推理能力是否真的符合人类标准的智能,还是仅仅是互联网级别的机械重复?为了解决这个问题,我们提出了RoR-Bench,这是一个新颖的多模态基准测试,用于在简单推理问题但条件细微变化的情况下检测LLM的机械重复行为,并对我们的基准测试进行了实证分析。令人惊讶的是,我们发现现有的顶尖LLM普遍存在严重的机械重复行为;仅通过改变一个条件短语,如OpenAI-o1和DeepSeek-R1等顶级模型,在 elementary 学校级别的算术和推理问题上的性能损失高达60%。这样的发现对LLM社区来说是一个警钟,迫使我们重新评估顶尖LLM的真实智能水平。