摘要
arXiv:2505.07247v1 交叉类型: cross
摘要: 主观答案评分(SAG)在教育、标准化测试和自动化评估系统中起着至关重要的作用,特别是在简答题评分(SAS)中评估简短形式的回答。然而,现有的方法往往产生粗粒度的评分,并缺乏详细的理由。尽管大型语言模型(LLMs)已经展示了作为零样本评估者的潜力,它们仍然容易受到偏见的影响,与人工评判的一致性较差,并且评分决策的透明度有限。为了克服这些限制,我们引入了SAS-Bench,这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供了细粒度的、逐步的评分,专家注释的错误类别,以及来自实际主题特定考试的多样化问题类型。这个基准有助于详细评估模型的推理过程和可解释性。我们还发布了一个开源数据集,包含1,030个问题和4,109个学生回答,每个问题和回答都由领域专家进行了标注。此外,我们进行了广泛的实验,使用了多种LLM,指出了评分科学相关问题的主要挑战,并突显了少量示例提示在提高评分准确性方面的有效性。我们的工作为开发更坚固、更公平且教育上有意义的基于LLM的评估系统提供了宝贵的见解。