摘要
arXiv:2504.00509v1 类型:新论文
摘要:近年来,LLM基准测试从 elementary 学校级别的难度迅速提升到前沿问题,为我们科研人员编织了一个奇迹,似乎我们只需要几步之遥就能超越人类智能。但是,LLM们令人瞩目的推理能力是否真的符合人类标准的智能,还是仅仅是互联网级别的机械重复?为了解决这个问题,我们提出了RoR-Bench,这是一个新颖的多模态基准测试,用于在简单推理问题但条件细微变化的情况下检测LLM的机械重复行为,并对我们的基准测试进行了实证分析。令人惊讶的是,我们发现现有的顶尖LLM普遍存在严重的机械重复行为;仅通过改变一个条件短语,如OpenAI-o1和DeepSeek-R1等顶级模型,在 elementary 学校级别的算术和推理问题上的性能损失高达60%。这样的发现对LLM社区来说是一个警钟,迫使我们重新评估顶尖LLM的真实智能水平。