摘要
arXiv:2502.00334v1 交叉类型
摘要:大型语言模型(LLMs)在解决复杂推理任务方面展示了 remarkable 的能力,尤其在数学方面。然而,物理推理的领域提出了独特的挑战,这些挑战受到了显著的关注不足。现有的基准测试在评估LLMs在本科水平物理的广度和深度方面往往表现不佳,突显了进行全面评估的必要性。为填补这一缺口,我们引入了UGPhysics,这是一个大规模且全面的基准测试,专门设计用于评估大型语言模型在本科水平物理(UGPhysics)推理方面的表现。UGPhysics 包含了5,520个本科水平的物理问题,涵盖13个学科,有七种不同的答案类型和四种不同的物理推理技能,并且所有这些数据都经过严格的数据泄漏筛查。此外,我们还开发了一个名为Model-Assistant Rule-based Judgment(MARJ)的管道,专门用于评估物理问题的答案正确性,确保评估的准确性。我们对31个领先的大型语言模型的评估显示,整体准确率最高为49.8%(由OpenAI-o1-mini实现),这突显了需要比数学能力更强的物理推理能力的模型的必要性。我们希望UGPhysics与MARJ能够推动未来人工智能在物理推理方面的进步。