摘要
本文介绍了 AMMORE,一个包含 53,000 个数学开放式问答对的新数据集,这些数据来自 Rori,一个被多个非洲国家学生使用的学习平台。本文进行了两个实验,以评估大型语言模型 (LLM) 在评估特别具有挑战性的学生答案方面的应用。AMMORE 数据集支持各种潜在的分析,并为研究未充分研究的现实世界教育环境中的学生数学学习提供了一个重要资源。在实验 1 中,我们使用各种基于 LLM 的方法,包括零样本、少样本和思维链提示,来评估规则型分类器无法准确评估的 1% 的学生答案。我们发现,性能最佳的方法——思维链提示——准确地对这些边缘案例的 92% 进行了评分,有效地将整体评分准确率从 98.7% 提高到 99.9%。在实验 2 中,我们旨在通过将最佳 LLM 方法生成的评分传递给贝叶斯知识追踪 (BKT) 模型来更好地了解改进的评分准确性的结果效度,该模型估计了学生对特定课程的掌握程度。我们发现,在单个问题层面上,模型准确性的适度提高会导致学生掌握程度估计的显著变化。目前用于评估学生答案的规则型分类器错误分类了 6.9% 的学生在他们完成的课程中的掌握状态,而使用 LLM 思维链方法,这种错误分类率降低到 2.6%。总而言之,这些发现表明,LLM 可以成为评估 K-12 数学教育中开放式问题的宝贵工具,有可能促进在形成性评估中更广泛地采用开放式问题。