LLM2D

摘要

arXiv:2504.00509v2 通告类型: 替换摘要：近年来，大型语言模型基准从小学水平问题到前沿问题难度的急剧上升，为研究人员创造了一个奇迹，仿佛人类智能已经近在咫尺。然而，这些大型语言模型令人瞩目的推理能力究竟是基于人类标准的真正智能，还是只是在互联网训练过程中简单复述解决方案？为了研究这一问题，我们提出了RoR-Bench，这是一个新颖的多模态基准，用于在简单推理问题但在条件上微小变动的情况下检测大型语言模型的复述行为，并对基准进行了实证分析。令人惊讶的是，我们发现现有的最先进的大型语言模型普遍表现出极其严重的复述行为；通过将条件中的一个短语改变，顶级模型如OpenAI-o1和DeepSeek-R1在小学水平的算术和推理问题上的性能会损失60%。这些发现对大型语言模型社区构成了警醒，促使我们重新评估最先进的大型语言模型的真实智能水平。