LLM2D
UGPhysics: 用于大型语言模型的本科物理推理综合基准
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models
作者: Xin Xu, Qiyun Xu, Tong Xiao, Tianhao Chen, Yuchen Yan, Jiaxin Zhang, Shizhe Diao, Can Yang, Yang Wang
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.00334v2

摘要

arXiv:2502.00334v2 通知类型: 替换跨领域 摘要:大型语言模型(LLMs)在解决复杂推理任务方面展现了令人瞩目的能力,特别是在数学领域。然而,物理推理领域面临着独特的挑战,这些挑战得到了显著较少的关注。现有的评估基准往往在评估LLMs在本科物理层次的广度和深度方面不够充分,强调了全面评估的需要。为了填补这一空白,我们引入了UGPhysics,一个大型且全面的基准,专门设计用于评估LLMs在本科物理(UGPhysics)推理方面的能力。UGPhysics包含5,520个本科物理问题,涵盖了13个科目,七种不同的答案类型和四种不同的物理推理技能,所有这些都经过严格筛选以防止数据泄露。此外,我们还开发了一个名为Model-Assistant Rule-based Judgment(MARJ)的管道,专门针对评估物理问题的答案正确性,确保准确评价。我们对31个领先LLMs的评估结果显示,总体最高准确率49.8%(由OpenAI-o1-mini实现)强调了更强物理推理技能的需求,而不仅仅是数学能力。我们希望通过UGPhysics和MARJ推动未来用于物理推理的AI的发展。相关代码和数据可在https://github.com/YangLabHKUST/UGPhysics 上获取。