LLM2D

摘要

arXiv:2504.02810v1 声称类型: cross 摘要：随着功能强大的大型语言模型（LLMs）展示了超人的推理能力，一个关键问题出现了：LLMs 是否真正进行了推理，还是只是从其海量的网摘训练数据集中回忆答案？公开发布的基准测试一旦被后续的LLM训练数据集采用，必然会受到污染，从而削弱其作为可靠评估工具的有效性。为解决这一问题，我们引入了KUMO，这是一个专门用于评估LLMs推理能力的生成性评估框架。KUMO 独特地结合了LLMs和符号引擎，动态生成种类繁多、多轮次的推理任务，这些任务部分可观察且难度可调。通过自动化管道，KUMO 持续生成跨越开放领域的全新任务，促使模型展示真正的泛化能力，而非记忆能力。我们让23个最先进的LLMs在KUMO生成的5000个任务（覆盖100个领域）上进行了测试，并将它们的推理能力与大学生的成绩进行了基准测试。我们的研究结果表明，许多LLMs在简单的推理任务上已经超过了大学生的表现水平，而在复杂的推理挑战中，推理能力攀升的LLMs也能达到大学生水平的性能。此外，LLMs在KUMO任务上的表现与新发布的现实世界推理基准测试结果之间存在强烈的相关性，这凸显了KUMO作为评估真实LLMs推理能力的稳健且持久工具的价值。