LLM2D

摘要

arXiv:2502.00334v1 交叉类型摘要：大型语言模型（LLMs）在解决复杂推理任务方面展示了 remarkable 的能力，尤其在数学方面。然而，物理推理的领域提出了独特的挑战，这些挑战受到了显著的关注不足。现有的基准测试在评估LLMs在本科水平物理的广度和深度方面往往表现不佳，突显了进行全面评估的必要性。为填补这一缺口，我们引入了UGPhysics，这是一个大规模且全面的基准测试，专门设计用于评估大型语言模型在本科水平物理（UGPhysics）推理方面的表现。UGPhysics 包含了5,520个本科水平的物理问题，涵盖13个学科，有七种不同的答案类型和四种不同的物理推理技能，并且所有这些数据都经过严格的数据泄漏筛查。此外，我们还开发了一个名为Model-Assistant Rule-based Judgment（MARJ）的管道，专门用于评估物理问题的答案正确性，确保评估的准确性。我们对31个领先的大型语言模型的评估显示，整体准确率最高为49.8%（由OpenAI-o1-mini实现），这突显了需要比数学能力更强的物理推理能力的模型的必要性。我们希望UGPhysics与MARJ能够推动未来人工智能在物理推理方面的进步。