LLM2D

摘要

arXiv:2504.00509v1 类型：新论文摘要：近年来，LLM基准测试从 elementary 学校级别的难度迅速提升到前沿问题，为我们科研人员编织了一个奇迹，似乎我们只需要几步之遥就能超越人类智能。但是，LLM们令人瞩目的推理能力是否真的符合人类标准的智能，还是仅仅是互联网级别的机械重复？为了解决这个问题，我们提出了RoR-Bench，这是一个新颖的多模态基准测试，用于在简单推理问题但条件细微变化的情况下检测LLM的机械重复行为，并对我们的基准测试进行了实证分析。令人惊讶的是，我们发现现有的顶尖LLM普遍存在严重的机械重复行为；仅通过改变一个条件短语，如OpenAI-o1和DeepSeek-R1等顶级模型，在 elementary 学校级别的算术和推理问题上的性能损失高达60%。这样的发现对LLM社区来说是一个警钟，迫使我们重新评估顶尖LLM的真实智能水平。