LLM2D

摘要

arXiv:2502.01584v1 类型: 新摘要: 当前针对前沿模型的基准测试通常测试专化的、"博士水平"的知识，这对于非专家来说很难理解。相比之下，我们提出了一项基于NPR周日谜题挑战的基准测试，只需要普通知识即可。然而，这项基准测试对人类和模型都是具有挑战性的，但正确的解题结果很容易验证，模型的错误也很容易被发现。我们的工作揭示了现有基准测试中不存在的能力差距：OpenAI o1在测试专化知识的基准测试中明显优于其他推理模型。此外，我们对推理输出的分析揭示了新的失败类型。例如，DeepSeek R1通常会在给出一个它知道是错误的答案之前放弃，用“我放弃了”。R1在输出中还表现出异常的“不确定”，甚至在极少数情况下，它也不会“完成思考”，这表明需要一种在上下文窗口限制之前在推理阶段进行“总结”的技术。我们还通过R1和Gemini Thinking量化了更长时间推理的有效性，以确定超出这一点后更多推理不太可能提高基准测试的准确性。