LLM2D

摘要

近年来，自动作文评分（AES）的进展已转向评估多个特征以提供更丰富的反馈。与典型的 AES 系统一样，多特征 AES 使用二次加权卡帕 (QWK) 来衡量与人工评分者的一致性，与评分方案紧密一致；然而，其不可微分性质使其无法直接用于神经网络训练。在本文中，我们提出了评分感知多奖励强化学习 (SaMRL)，它通过设计基于 QWK 的奖励并对多特征 AES 的均方误差进行惩罚，将实际评估方案整合到训练过程中。现有的 AES 中的强化学习 (RL) 应用仅限于分类模型，尽管与之相关的性能下降，因为 RL 需要概率分布；相反，我们采用了一种自回归评分生成框架，利用标记生成概率进行稳健的多特征评分预测。实证分析表明，SaMRL 有助于模型训练，显着增强了先前较差提示的评分。