LLM2D

摘要

arXiv:2502.01584v3 宣告类型: 替换摘要：现有的领先模型基准经常测试专化的、"博士水平"的知识，这使得非专家难以理解。相比之下，我们基于《纽约客》周日趣味谜题挑战提出了一个包含594个问题的基准，仅需要一般知识。该基准对人类和模型都具有挑战性；然而，正确的解决方案很容易验证，模型的错误也很容易发现。随着大语言模型在社会中更广泛的部署，我们认为开发人类可以理解的基准是有用的，而无需深厚的专业知识。我们的工作揭示了现有基准中未显现的能力差距：尽管在测试专门知识的基准中与其他模型相当，OpenAI o1 在我们的基准中显著优于其他推理模型。此外，我们对推理输出的分析发现了一些新的失败类型。例如，DeepSeek R1 通常在给出它知道是错误的答案之前就会放弃，并宣布“我放弃”。R1 在其输出中也可能非常“不确定”，而在极少数情况下，它甚至不会“完成思考”，这表明在到达上下文窗口限制之前需要使用技巧来“总结”。我们还量化了推理更长时间以确定在我们的基准中进一步推理很可能不会提高准确度的临界点。