LLM2D

摘要

arXiv:2502.00334v2 通知类型: 替换跨领域摘要：大型语言模型（LLMs）在解决复杂推理任务方面展现了令人瞩目的能力，特别是在数学领域。然而，物理推理领域面临着独特的挑战，这些挑战得到了显著较少的关注。现有的评估基准往往在评估LLMs在本科物理层次的广度和深度方面不够充分，强调了全面评估的需要。为了填补这一空白，我们引入了UGPhysics，一个大型且全面的基准，专门设计用于评估LLMs在本科物理（UGPhysics）推理方面的能力。UGPhysics包含5,520个本科物理问题，涵盖了13个科目，七种不同的答案类型和四种不同的物理推理技能，所有这些都经过严格筛选以防止数据泄露。此外，我们还开发了一个名为Model-Assistant Rule-based Judgment（MARJ）的管道，专门针对评估物理问题的答案正确性，确保准确评价。我们对31个领先LLMs的评估结果显示，总体最高准确率49.8%（由OpenAI-o1-mini实现）强调了更强物理推理技能的需求，而不仅仅是数学能力。我们希望通过UGPhysics和MARJ推动未来用于物理推理的AI的发展。相关代码和数据可在https://github.com/YangLabHKUST/UGPhysics 上获取。