LLM2D

摘要

arXiv:2505.07247v2 公告类型: 替换-交叉摘要：主观答案评分（SAG）在教育、标准化测试和自动化评估系统中起着重要作用，特别是在短答案评分（SAS）中评估简答题方面。然而，现有的方法往往会产生粗粒度的评分，缺乏详细的解释。尽管大型语言模型（LLMs）已表现出作为零样本评估者的潜力，但它们仍然容易受到偏见的影响，评分与人类判断的一致性较差，以及评分决策的不透明性。为了克服这些限制，我们引入了SAS-Bench，这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供了细粒度的、逐步的评分，由专家注释的错误类别，以及来自实际主题特定考试的一系列多样化的问题类型。该基准有助于详细评估模型的推理过程和解释性。我们还开源了一个包含1030个问题和4109个学生回答的数据集，每个问题都由领域专家注释。此外，我们对各种LLM进行了全面实验，识别出了评分科学相关问题的主要挑战，并强调了少样本提示在提高评分准确性方面的作用。我们的工作提供了有关开发更稳健、公平且教育上意义更大的基于LLM的评估系统的有价值见解。