LLM2D

摘要

arXiv:2502.01584v2 公告类型：替换摘要：现有针对前沿模型的基准测试通常测试专业化的“博士级”知识，这使得非专家难以理解。相比之下，我们提出了一个基于 NPR 周日谜题挑战的基准测试，只需要一般知识。然而，该基准测试对人类和模型都是具有挑战性的，但是正确的解题方法很容易验证，模型的错误也易于发现。我们的研究揭示了现有基准测试中不明显的能力差距：OpenAI o1 在测试专业化知识的基准测试中与其他推理模型不相上下，但在我们的基准测试中表现显著更好。此外，我们对推理输出的分析揭示了新的失败类型。例如，DeepSeek R1 经常在提供一个它知道自己是错误的答案之前放弃说“我放弃”。R1 有时还会在其输出中表现出超乎寻常的不确定性，在极少数情况下，它甚至没有“结束思考”，这表明需要一种推理时的“收尾”技术，在上下文窗口限制之前将其“收尾”。我们还通过使用 R1 和 Gemini Thinking 来量化更长时间推理的有效性，以确定超出此点后进一步推理不太可能提高我们基准测试的准确性。