摘要
arXiv:2501.06143v2 声明类型: 替换-交叉
摘要:我们使用一个涵盖多个语言和学科类别的物理学概念测试集合,研究了一种基于大规模语言模型的人工智能系统(AI)——GPT-4o——的多语言和跨模态性能。这些测试集合来源于PhysPort网站,涵盖了从经典物理学(如力学、电磁学、光学和热力学)到相对论、量子力学、天文学、数学以及实验技能等多个主题领域。与之前的仅基于文本的研究不同,我们将测试集合作为图片上传,以反映学生在纸上看到的内容,从而评估系统的跨模态功能。研究结果表明,不同学科之间的表现存在差异,实验技能尤为薄弱。同时,我们还观察到不同语言之间的差异,英语和欧洲语言展现出最强的表现。值得注意的是,测试项目相对难度与调查的语言几乎没有关联。当我们对比AI的结果与现有文献中学生表现的现有数据时,发现除了实验技能外,该AI系统在所有学科类别中都优于平均受过指导的本科生。此外,该AI在需要对图片进行视觉解释的项目上表现较差,而在纯文本项目的上面表现更好。