LLM2D
SAS-Bench:评估大型语言模型短答评分的一项细粒度基准测试
SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models
作者: Peichao Lai, Kexuan Zhang, Yi Lin, Linyihan Zhang, Feiyang Ye, Jinhao Yan, Yanwei Xu, Conghui He, Yilei Wang, Wentao Zhang, Bin Cui
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.07247v2

摘要

arXiv:2505.07247v2 公告类型: 替换-交叉 摘要:主观答案评分(SAG)在教育、标准化测试和自动化评估系统中起着重要作用,特别是在短答案评分(SAS)中评估简答题方面。然而,现有的方法往往会产生粗粒度的评分,缺乏详细的解释。尽管大型语言模型(LLMs)已表现出作为零样本评估者的潜力,但它们仍然容易受到偏见的影响,评分与人类判断的一致性较差,以及评分决策的不透明性。为了克服这些限制,我们引入了SAS-Bench,这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供了细粒度的、逐步的评分,由专家注释的错误类别,以及来自实际主题特定考试的一系列多样化的问题类型。该基准有助于详细评估模型的推理过程和解释性。我们还开源了一个包含1030个问题和4109个学生回答的数据集,每个问题都由领域专家注释。此外,我们对各种LLM进行了全面实验,识别出了评分科学相关问题的主要挑战,并强调了少样本提示在提高评分准确性方面的作用。我们的工作提供了有关开发更稳健、公平且教育上意义更大的基于LLM的评估系统的有价值见解。