摘要
近年来,自动作文评分(AES)的进展已转向评估多个特征以提供更丰富的反馈。与典型的 AES 系统一样,多特征 AES 使用二次加权卡帕 (QWK) 来衡量与人工评分者的一致性,与评分方案紧密一致;然而,其不可微分性质使其无法直接用于神经网络训练。在本文中,我们提出了评分感知多奖励强化学习 (SaMRL),它通过设计基于 QWK 的奖励并对多特征 AES 的均方误差进行惩罚,将实际评估方案整合到训练过程中。现有的 AES 中的强化学习 (RL) 应用仅限于分类模型,尽管与之相关的性能下降,因为 RL 需要概率分布;相反,我们采用了一种自回归评分生成框架,利用标记生成概率进行稳健的多特征评分预测。实证分析表明,SaMRL 有助于模型训练,显着增强了先前较差提示的评分。