摘要
arXiv:2410.14202v2 宣告类型: replace-cross
摘要:现有的自动化作文评分(AES)仅依赖于作文文本,而不使用解释性推理来评分,从而错失了以精细方式捕捉评分标准评价指标具体方面的机会。本文介绍了基于推理的多特征评分(RMTS),这是一种新颖的多特征作文评分方法,该方法结合了基于提示工程的大语言模型(LLMs)和使用较小的大语言模型(S-LLM)进行微调的作文评分模型。RMTS 使用基于LLM的特征别化推理生成系统,其中单独的LLM代理根据评分标准指南生成特征特定的推理,评分模型使用这些推理来准确预测多特征评分。在包括ASAP、ASAP++和Feedback Prize在内的基准数据集上的广泛实验表明,RMTS在特征特定评分方面显著优于现有最佳模型和纯S-LLM。通过使用精细的定性推理辅助定量评估,RMTS 提高了特征别化可靠性,并对作文提供部分解释。代码可从 https://github.com/BBeeChu/RMTS.git 获取。