摘要
arXiv:2502.11916v1 交叉类型
摘要:自动作文评分(AES)在教育评估中扮演着关键角色,通过提供写作任务的规模化和一致性的评估。然而,传统的AES系统面临三大挑战:(1)依赖手工特征,限制了泛化能力,(2)难以捕捉细微的特征,如连贯性和论证,以及(3)无法处理多模态上下文。在多模态大规模语言模型(MLLM)的时代,我们提出了EssayJudge,这是首个用于评估AES能力的多模态基准,涵盖了词汇级、句子级和话语级的特征。通过利用MLLM在特征特定评分和多模态上下文理解方面的优势,EssayJudge旨在提供精确、富有上下文的评估,无需手动特征工程,解决了传统AES的长期局限性。我们的实验使用了18个代表性MLLM,揭示了与人类评估相比,AES在话语级特征上的绩效差距,突显了基于MLLM的AES研究需要进一步的进步。我们的数据集和代码将在接受后提供。