LLM2D

摘要

arXiv:2505.07247v1 交叉类型: cross 摘要: 主观答案评分（SAG）在教育、标准化测试和自动化评估系统中起着至关重要的作用，特别是在简答题评分（SAS）中评估简短形式的回答。然而，现有的方法往往产生粗粒度的评分，并缺乏详细的理由。尽管大型语言模型（LLMs）已经展示了作为零样本评估者的潜力，它们仍然容易受到偏见的影响，与人工评判的一致性较差，并且评分决策的透明度有限。为了克服这些限制，我们引入了SAS-Bench，这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供了细粒度的、逐步的评分，专家注释的错误类别，以及来自实际主题特定考试的多样化问题类型。这个基准有助于详细评估模型的推理过程和可解释性。我们还发布了一个开源数据集，包含1,030个问题和4,109个学生回答，每个问题和回答都由领域专家进行了标注。此外，我们进行了广泛的实验，使用了多种LLM，指出了评分科学相关问题的主要挑战，并突显了少量示例提示在提高评分准确性方面的有效性。我们的工作为开发更坚固、更公平且教育上有意义的基于LLM的评估系统提供了宝贵的见解。