LLM2D
LCES: 通过大型语言模型进行成对比较的零样本自动作文评分
LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models
作者: Takumi Shibata, Yuichi Miyamura
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08498v1

摘要

arXiv:2505.08498v1 交叉公告类型:跨领域 摘要:大型语言模型(LLMs)的最新进展使零-shot自动作文评分(AES)成为可能,为相比人工评分降低成本和努力提供了有前景的方法。然而,现有大多数零-shot方法依赖于LLMs直接生成绝对分数,这往往由于模型偏见和评分不一致而与人工评估产生分歧。为解决这些问题,我们提出了基于LLM的比较式作文评分(LCES)方法,该方法将AES形式化为成对比较任务。具体而言,我们指导LLMs判断两篇作文中哪一篇更好,并收集大量这样的比较,将其转化为连续分数。考虑到可能的比较数量随着作文数量的增加而呈平方增长,我们通过使用RankNet有效地将LLM的偏好转化为标量分数来提高可扩展性。使用AES基准数据集的实验显示,LCES在准确性上优于传统零-shot方法,同时保持计算效率。此外,LCES在不同的LLM基础模型上表现出鲁棒性,突显了其在实际零-shot AES中的适用性。