摘要
开放式简答题 (SAG) 已被广泛认为是在学习分析 (LA) 的背景下提供对学习者反应更深入见解的强大工具。然而,由于评分工作量大以及对评估不一致的担忧,SAG 在实践中往往面临挑战。随着自然语言处理 (NLP) 的最新进展,自动简答题评分 (ASAG) 为这些挑战提供了一种有希望的解决方案。尽管如此,当前的 ASAG 算法在泛化性方面往往受到限制,并且往往针对特定问题进行定制。在本文中,我们提出了一种统一的多智能体 ASAG 框架 GradeOpt,该框架利用大型语言模型 (LLMs) 作为 SAG 的评分者。更重要的是,GradeOpt 将两个额外的基于 LLMs 的智能体——反射器和精炼器——纳入多智能体系统。这使 GradeOpt 能够通过对其错误进行自我反省来自动优化原始评分指南。通过对具有挑战性的 ASAG 任务(即对教学内容知识 (PCK) 和内容知识 (CK) 问题的评分)进行的实验,与代表性基线相比,GradeOpt 在评分准确性和与人类评分者的行为一致性方面表现出优异的性能。最后,全面的消融研究证实了 GradeOpt 中设计的各个组件的有效性。