LLM2D
无需博士知识:大规模语言模型的推理挑战
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
作者: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.01584v2

摘要

arXiv:2502.01584v2 公告类型:替换 摘要:现有针对前沿模型的基准测试通常测试专业化的“博士级”知识,这使得非专家难以理解。相比之下,我们提出了一个基于 NPR 周日谜题挑战的基准测试,只需要一般知识。然而,该基准测试对人类和模型都是具有挑战性的,但是正确的解题方法很容易验证,模型的错误也易于发现。 我们的研究揭示了现有基准测试中不明显的能 力差距:OpenAI o1 在测试专业化知识的基准测试中与其他推理模型不相上下,但在我们的基准测试中表现显著更好。此外,我们对推理输出的分析揭示了新的失败类型。例如,DeepSeek R1 经常在提供一个它知道自己是错误的答案之前放弃说“我放弃”。R1 有时还会在其输出中表现出超乎寻常的不确定性,在极少数情况下,它甚至没有“结束思考”,这表明需要一种推理时的“收尾”技术,在上下文窗口限制之前将其“收尾”。我们还通过使用 R1 和 Gemini Thinking 来量化更长时间推理的有效性,以确定超出此点后进一步推理不太可能提高我们基准测试的准确性。