LLM2D
“我的图表公正地反映了答案吗?”:迈向基于反馈的多模态简答评分(MMSAF)
"Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF)
作者: Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.19755v2

摘要

arXiv:2412.19755v2 宣告类型: 替换 摘要:评估在学生的学习过程中起着至关重要的作用,通过提供有关学生在某一学科中的熟练程度的反馈。虽然评估通常使用简答题,但在大规模评分简答题时常常存在困难。此外,这类简答题通常要求学生在文字解释的同时绘制支持性图表。这些问题常常促进多模态素养,并与基于能力的问题对齐,后者要求学生具有更深层次的认知处理能力。然而,现有文献并未涉及此类答案的自动评分。因此,为了弥合这一差距,我们提出了多模态简答题评分和反馈(MMSAF)问题,同时还提供了一个包含2197个数据点的数据集。此外,我们还提供了一种自动化框架以生成此类数据集。在该数据集上对现有大型语言模型(LLMs)的评估显示,在“正确性”标签上的总体准确率为55%,在“图像相关性”标签上的准确率为75%。根据人类专家的评估,Pixtral 更符合人体判断标准,特别是在生物学方面,而在物理和化学方面,ChatGPT 的表现更为出色,并在大多数参数中获得了 4 或更高的评分。