LLM2D
STEM 领域多模态答卷的自动评估
Automated Assessment of Multimodal Answer Sheets in the STEM domain
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15749v1

摘要

在教育领域,技术的整合开启了一个变革时代,重塑了传统的学习模式。这一演变的核心是评分过程的自动化,特别是在涵盖科学、技术、工程和数学的 STEM 领域。虽然在文学等学科领域已经做出了自动化评分的努力,但 STEM 评估的多方面性质带来了独特的挑战,从定量分析到手写图表的解释。为了应对这些挑战,本研究致力于通过实施使用人工智能 (AI) 的自动化评估技术来开发高效可靠的评分方法。我们的贡献体现在两个关键领域:首先,开发了一个用于评估 STEM 中文本答案的稳健系统,利用样本答案进行精确比较和评分,这得益于先进的算法和自然语言处理技术。其次,重点关注在 STEM 环境中增强图表评估,特别是流程图,通过将图表转换为文本表示,以便使用大型语言模型 (LLM) 进行细致的评估。通过弥合视觉表示和语义含义之间的差距,我们的方法确保了准确的评估,同时最大限度地减少了人工干预。通过整合 CRAFT 等用于文本提取的模型和 YoloV5 等用于目标检测的模型,再加上 Mistral-7B 等 LLM 用于文本评估,我们的方法促进了对多模式答卷的全面评估。本文详细介绍了我们的方法、遇到的挑战、结果和影响,强调了人工智能驱动方法在彻底改变 STEM 教育评分实践方面的潜力。