LLM2D

摘要

arXiv:2504.02810v2 更新类型: 替换交叉摘要：随着强大语言模型（LLMs）展现出超人的推理能力，一个关键问题出现了：LLMs 是否真正进行了推理，还是仅仅回忆起了它们广泛抓取的训练数据集中的答案？一旦公开发布的基准被纳入后续LLMs的训练集，它们作为可靠评估工具的有效性就会受到削弱。为了解决这个问题，我们引入了KUMO，这是一种专门用于评估LLMs推理能力的生成性评估框架。KUMO 独特地结合了LLMs与符号引擎，动态生成多样化、多回合的推理任务，这些任务部分可观察并且可以调整难度。通过自动化的工作流程，KUMO 不断生成跨开放式领域的新型任务，促使模型展示真正的泛化能力而不是记忆能力。我们在KUMO生成的100个领域中的5000个任务上评估了23种最先进的LLMs，并将它们的推理能力与大学生进行了基准测试。我们的研究发现，许多LLMs在简单的推理任务上超过了大学水平的表现，而推理调整过的LLMs在复杂的推理挑战上达到了大学水平。此外，LLMs在KUMO任务上的表现与其在新发布的现实世界推理基准上的结果之间具有强烈的关联性，这突显了KUMO作为一种强大的持久性评估工具的价值，用于评估真正的LLMs推理能力。