LLM2D
基于物理的推理综合基准
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning
作者: Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.12054v1

摘要

arXiv:2502.12054v1 宣布类型: 新 摘要: 大型语言模型在各种领域中展现出了令人惊叹的能力,特别是在数学和逻辑推理方面。然而,当前的评估忽略了基于物理的推理——一项复杂的任务,需要物理定理和约束。我们提出了PhysReason基准,包含1200个问题,其中包含基于知识的问题(占25%)和基于推理的问题(占75%),后者又被分为三个难度级别(简单、中等、困难)。值得注意的是,这些问题平均需要8.1步解决方案,而困难级别的问题则需要15.6步,反映出了基于物理的推理的复杂性。我们提出了物理解决方案自动评分框架,该框架结合了高效的答案级和全面的步骤级评估。在答案级评估中,表现最好的模型如Deepseek-R1、Gemini-2.0-Flash-Thinking和o3-mini-high的得分低于60%,性能从知识性问题(75.11%)下降到困难问题(31.95%)。通过步骤级评估,我们识别出了四个关键瓶颈:物理定理应用、物理过程理解、计算和物理条件分析。这些发现使PhysReason成为评估大型语言模型基于物理的推理能力的创新和全面基准。我们的代码和数据将发布在https://dxzxy12138.github.io/PhysReason。