LLM2D

摘要

arXiv:2501.06143v2 声明类型: 替换-交叉摘要：我们使用一个涵盖多个语言和学科类别的物理学概念测试集合，研究了一种基于大规模语言模型的人工智能系统（AI）——GPT-4o——的多语言和跨模态性能。这些测试集合来源于PhysPort网站，涵盖了从经典物理学（如力学、电磁学、光学和热力学）到相对论、量子力学、天文学、数学以及实验技能等多个主题领域。与之前的仅基于文本的研究不同，我们将测试集合作为图片上传，以反映学生在纸上看到的内容，从而评估系统的跨模态功能。研究结果表明，不同学科之间的表现存在差异，实验技能尤为薄弱。同时，我们还观察到不同语言之间的差异，英语和欧洲语言展现出最强的表现。值得注意的是，测试项目相对难度与调查的语言几乎没有关联。当我们对比AI的结果与现有文献中学生表现的现有数据时，发现除了实验技能外，该AI系统在所有学科类别中都优于平均受过指导的本科生。此外，该AI在需要对图片进行视觉解释的项目上表现较差，而在纯文本项目的上面表现更好。