LLM2D
按秩然后评分:提升大型语言模型以实现自动作文评分
Rank-Then-Score: Enhancing Large Language Models for Automated Essay Scoring
作者: Yida Cai, Kun Liang, Sanwoo Lee, Qinghan Wang, Yunfang Wu
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05736v1

摘要

arXiv:2504.05736v1 通知类型: cross 摘要:近年来,大规模语言模型(LLMs)在各种任务中取得了显著的成功。然而,它们在自动作文评分(AES)领域的潜力仍然很大程度上未被探索。此外,与英语数据相比,针对中文AES的方法发展得不够完善。在本文中,我们提出了一种基于大规模语言模型的细调框架Rank-Then-Score(RTS),以增强其作文评分能力。具体来说,我们使用特征增强的数据对排名模型(Ranker)进行微调,并将排名模型的输出(候选分数集)与作文内容输入评分模型(Scorer),生成最终分数。在HSK和ASAP两个基准数据集上的实验结果表明,RTS在所有LLM和数据集上的一致平均QWK值上始终优于直接提示(Vanilla)方法,并且在使用HSK数据集进行中文作文评分时表现出最佳性能。