LLM2D
EssayJudge: 一种评估多模态大型语言模型作文评分能力的多层次基准
EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language Models
作者: Jiamin Su, Yibo Yan, Fangteng Fu, Han Zhang, Jingheng Ye, Xiang Liu, Jiahao Huo, Huiyu Zhou, Xuming Hu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11916v1

摘要

arXiv:2502.11916v1 交叉类型 摘要:自动作文评分(AES)在教育评估中扮演着关键角色,通过提供写作任务的规模化和一致性的评估。然而,传统的AES系统面临三大挑战:(1)依赖手工特征,限制了泛化能力,(2)难以捕捉细微的特征,如连贯性和论证,以及(3)无法处理多模态上下文。在多模态大规模语言模型(MLLM)的时代,我们提出了EssayJudge,这是首个用于评估AES能力的多模态基准,涵盖了词汇级、句子级和话语级的特征。通过利用MLLM在特征特定评分和多模态上下文理解方面的优势,EssayJudge旨在提供精确、富有上下文的评估,无需手动特征工程,解决了传统AES的长期局限性。我们的实验使用了18个代表性MLLM,揭示了与人类评估相比,AES在话语级特征上的绩效差距,突显了基于MLLM的AES研究需要进一步的进步。我们的数据集和代码将在接受后提供。