摘要
arXiv:2502.01584v1 类型: 新
摘要: 当前针对前沿模型的基准测试通常测试专化的、"博士水平"的知识,这对于非专家来说很难理解。相比之下,我们提出了一项基于NPR周日谜题挑战的基准测试,只需要普通知识即可。然而,这项基准测试对人类和模型都是具有挑战性的,但正确的解题结果很容易验证,模型的错误也很容易被发现。
我们的工作揭示了现有基准测试中不存在的能力差距:OpenAI o1在测试专化知识的基准测试中明显优于其他推理模型。此外,我们对推理输出的分析揭示了新的失败类型。例如,DeepSeek R1通常会在给出一个它知道是错误的答案之前放弃,用“我放弃了”。R1在输出中还表现出异常的“不确定”,甚至在极少数情况下,它也不会“完成思考”,这表明需要一种在上下文窗口限制之前在推理阶段进行“总结”的技术。我们还通过R1和Gemini Thinking量化了更长时间推理的有效性,以确定超出这一点后更多推理不太可能提高基准测试的准确性。