LLM2D

摘要

arXiv:2502.12054v1 宣布类型: 新摘要: 大型语言模型在各种领域中展现出了令人惊叹的能力，特别是在数学和逻辑推理方面。然而，当前的评估忽略了基于物理的推理——一项复杂的任务，需要物理定理和约束。我们提出了PhysReason基准，包含1200个问题，其中包含基于知识的问题（占25%）和基于推理的问题（占75%），后者又被分为三个难度级别（简单、中等、困难）。值得注意的是，这些问题平均需要8.1步解决方案，而困难级别的问题则需要15.6步，反映出了基于物理的推理的复杂性。我们提出了物理解决方案自动评分框架，该框架结合了高效的答案级和全面的步骤级评估。在答案级评估中，表现最好的模型如Deepseek-R1、Gemini-2.0-Flash-Thinking和o3-mini-high的得分低于60%，性能从知识性问题（75.11%）下降到困难问题（31.95%）。通过步骤级评估，我们识别出了四个关键瓶颈：物理定理应用、物理过程理解、计算和物理条件分析。这些发现使PhysReason成为评估大型语言模型基于物理的推理能力的创新和全面基准。我们的代码和数据将发布在https://dxzxy12138.github.io/PhysReason。