LLM2D

摘要

arXiv:2504.05736v1 通知类型: cross 摘要：近年来，大规模语言模型（LLMs）在各种任务中取得了显著的成功。然而，它们在自动作文评分（AES）领域的潜力仍然很大程度上未被探索。此外，与英语数据相比，针对中文AES的方法发展得不够完善。在本文中，我们提出了一种基于大规模语言模型的细调框架Rank-Then-Score（RTS），以增强其作文评分能力。具体来说，我们使用特征增强的数据对排名模型（Ranker）进行微调，并将排名模型的输出（候选分数集）与作文内容输入评分模型（Scorer），生成最终分数。在HSK和ASAP两个基准数据集上的实验结果表明，RTS在所有LLM和数据集上的一致平均QWK值上始终优于直接提示（Vanilla）方法，并且在使用HSK数据集进行中文作文评分时表现出最佳性能。