LLM2D

摘要

arXiv:2412.19755v2 宣告类型: 替换摘要：评估在学生的学习过程中起着至关重要的作用，通过提供有关学生在某一学科中的熟练程度的反馈。虽然评估通常使用简答题，但在大规模评分简答题时常常存在困难。此外，这类简答题通常要求学生在文字解释的同时绘制支持性图表。这些问题常常促进多模态素养，并与基于能力的问题对齐，后者要求学生具有更深层次的认知处理能力。然而，现有文献并未涉及此类答案的自动评分。因此，为了弥合这一差距，我们提出了多模态简答题评分和反馈（MMSAF）问题，同时还提供了一个包含2197个数据点的数据集。此外，我们还提供了一种自动化框架以生成此类数据集。在该数据集上对现有大型语言模型（LLMs）的评估显示，在“正确性”标签上的总体准确率为55%，在“图像相关性”标签上的准确率为75%。根据人类专家的评估，Pixtral 更符合人体判断标准，特别是在生物学方面，而在物理和化学方面，ChatGPT 的表现更为出色，并在大多数参数中获得了 4 或更高的评分。