LLM2D

摘要

在教育领域，技术的整合开启了一个变革时代，重塑了传统的学习模式。这一演变的核心是评分过程的自动化，特别是在涵盖科学、技术、工程和数学的 STEM 领域。虽然在文学等学科领域已经做出了自动化评分的努力，但 STEM 评估的多方面性质带来了独特的挑战，从定量分析到手写图表的解释。为了应对这些挑战，本研究致力于通过实施使用人工智能 (AI) 的自动化评估技术来开发高效可靠的评分方法。我们的贡献体现在两个关键领域：首先，开发了一个用于评估 STEM 中文本答案的稳健系统，利用样本答案进行精确比较和评分，这得益于先进的算法和自然语言处理技术。其次，重点关注在 STEM 环境中增强图表评估，特别是流程图，通过将图表转换为文本表示，以便使用大型语言模型 (LLM) 进行细致的评估。通过弥合视觉表示和语义含义之间的差距，我们的方法确保了准确的评估，同时最大限度地减少了人工干预。通过整合 CRAFT 等用于文本提取的模型和 YoloV5 等用于目标检测的模型，再加上 Mistral-7B 等 LLM 用于文本评估，我们的方法促进了对多模式答卷的全面评估。本文详细介绍了我们的方法、遇到的挑战、结果和影响，强调了人工智能驱动方法在彻底改变 STEM 教育评分实践方面的潜力。