LLM2D

摘要

开放式问题比封闭式问题更能测试对知识的深入理解，因此常被用作评估方法。然而，开放式问题评分费时费力，且容易受到主观偏见的影响。因此，人们一直在努力通过自动化来加快评分过程。简答评分 (SAG) 系统旨在自动评分学生的答案。尽管 SAG 方法和能力不断发展，但跨不同科目、评分标准和分布的综合简答评分基准尚不存在。因此，很难评估当前自动化评分方法在泛化能力方面的表现。在本预研工作中，我们介绍了 ASAG2024 综合基准，以促进自动化评分系统的比较。我们将七个常用的简答评分数据集整合到一个共同的结构和评分标准中。对于我们的基准，我们评估了一组最新的 SAG 方法，结果表明，尽管基于大型语言模型 (LLM) 的方法取得了新的高分，但它们仍然远远没有达到人工评分的水平。这为未来关于人机协作 SAG 系统的研究开辟了新的方向。