LLM2D
博士知识不required:大规模语言模型的推理挑战
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
作者: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01584v1

摘要

arXiv:2502.01584v1 类型: 新 摘要: 当前针对前沿模型的基准测试通常测试专化的、"博士水平"的知识,这对于非专家来说很难理解。相比之下,我们提出了一项基于NPR周日谜题挑战的基准测试,只需要普通知识即可。然而,这项基准测试对人类和模型都是具有挑战性的,但正确的解题结果很容易验证,模型的错误也很容易被发现。 我们的工作揭示了现有基准测试中不存在的能力差距:OpenAI o1在测试专化知识的基准测试中明显优于其他推理模型。此外,我们对推理输出的分析揭示了新的失败类型。例如,DeepSeek R1通常会在给出一个它知道是错误的答案之前放弃,用“我放弃了”。R1在输出中还表现出异常的“不确定”,甚至在极少数情况下,它也不会“完成思考”,这表明需要一种在上下文窗口限制之前在推理阶段进行“总结”的技术。我们还通过R1和Gemini Thinking量化了更长时间推理的有效性,以确定超出这一点后更多推理不太可能提高基准测试的准确性。