摘要
arXiv:2505.08498v1 交叉公告类型:跨领域
摘要:大型语言模型(LLMs)的最新进展使零-shot自动作文评分(AES)成为可能,为相比人工评分降低成本和努力提供了有前景的方法。然而,现有大多数零-shot方法依赖于LLMs直接生成绝对分数,这往往由于模型偏见和评分不一致而与人工评估产生分歧。为解决这些问题,我们提出了基于LLM的比较式作文评分(LCES)方法,该方法将AES形式化为成对比较任务。具体而言,我们指导LLMs判断两篇作文中哪一篇更好,并收集大量这样的比较,将其转化为连续分数。考虑到可能的比较数量随着作文数量的增加而呈平方增长,我们通过使用RankNet有效地将LLM的偏好转化为标量分数来提高可扩展性。使用AES基准数据集的实验显示,LCES在准确性上优于传统零-shot方法,同时保持计算效率。此外,LCES在不同的LLM基础模型上表现出鲁棒性,突显了其在实际零-shot AES中的适用性。