LLM2D
作文评分背后的理由:通过由LLM生成的推理提升S-LLM的多特质作文评分
Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs
作者: SeongYeub Chu, JongWoo Kim, Bryan Wong, MunYong Yi
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.14202v2

摘要

arXiv:2410.14202v2 宣告类型: replace-cross 摘要:现有的自动化作文评分(AES)仅依赖于作文文本,而不使用解释性推理来评分,从而错失了以精细方式捕捉评分标准评价指标具体方面的机会。本文介绍了基于推理的多特征评分(RMTS),这是一种新颖的多特征作文评分方法,该方法结合了基于提示工程的大语言模型(LLMs)和使用较小的大语言模型(S-LLM)进行微调的作文评分模型。RMTS 使用基于LLM的特征别化推理生成系统,其中单独的LLM代理根据评分标准指南生成特征特定的推理,评分模型使用这些推理来准确预测多特征评分。在包括ASAP、ASAP++和Feedback Prize在内的基准数据集上的广泛实验表明,RMTS在特征特定评分方面显著优于现有最佳模型和纯S-LLM。通过使用精细的定性推理辅助定量评估,RMTS 提高了特征别化可靠性,并对作文提供部分解释。代码可从 https://github.com/BBeeChu/RMTS.git 获取。