LLM2D

摘要

arXiv:2505.08498v1 交叉公告类型：跨领域摘要：大型语言模型（LLMs）的最新进展使零-shot自动作文评分（AES）成为可能，为相比人工评分降低成本和努力提供了有前景的方法。然而，现有大多数零-shot方法依赖于LLMs直接生成绝对分数，这往往由于模型偏见和评分不一致而与人工评估产生分歧。为解决这些问题，我们提出了基于LLM的比较式作文评分（LCES）方法，该方法将AES形式化为成对比较任务。具体而言，我们指导LLMs判断两篇作文中哪一篇更好，并收集大量这样的比较，将其转化为连续分数。考虑到可能的比较数量随着作文数量的增加而呈平方增长，我们通过使用RankNet有效地将LLM的偏好转化为标量分数来提高可扩展性。使用AES基准数据集的实验显示，LCES在准确性上优于传统零-shot方法，同时保持计算效率。此外，LCES在不同的LLM基础模型上表现出鲁棒性，突显了其在实际零-shot AES中的适用性。