LLM2D

摘要

arXiv:2501.06143v3 Announce Type: replace-cross 摘要：我们使用来自多个语言和科目类别的多样化的物理概念量表，考察了基于大型语言模型的人工智能系统GPT-4o的多语言和多模态性能。这些量表来源于PhysPort网站，涵盖了经典物理学主题，如力学、电磁学、光学和热力学，以及相对论、量子力学、天文学、数学和实验技能。与之前的仅基于文本的研究不同，我们上传了这些量表作为图像，以反映学生在纸上所见的内容，从而评估系统的多模态功能。我们的结果显示，不同科目之间的表现存在差异，而实验技能表现最弱。我们还观察到不同语言之间的差异，英语和欧洲语言显示出最强的表现。值得注意的是，量表项目的相对难度在很大程度上与调查语言无关。当我们比较人工智能系统的成果与现有文献中学生的表现时，我们发现除了实验技能之外，该人工智能系统比平均接受过指导的本科生在所有科目类别中表现更好。此外，人工智能在需要视觉解释图像的项目上表现较差，而在纯文本基础上的项目上表现更好。我们的初步发现表明GPT-4o在物理教育中具有潜在的应用价值，但也凸显了教师培养学生的批判性评价人工智能输出的能力、在人工智能技术进步时谨慎调整教学计划以及解决人工智能整合带来的公平性问题的重要性。