LLM2D

摘要

arXiv:2502.11916v1 交叉类型摘要：自动作文评分（AES）在教育评估中扮演着关键角色，通过提供写作任务的规模化和一致性的评估。然而，传统的AES系统面临三大挑战：（1）依赖手工特征，限制了泛化能力，（2）难以捕捉细微的特征，如连贯性和论证，以及（3）无法处理多模态上下文。在多模态大规模语言模型（MLLM）的时代，我们提出了EssayJudge，这是首个用于评估AES能力的多模态基准，涵盖了词汇级、句子级和话语级的特征。通过利用MLLM在特征特定评分和多模态上下文理解方面的优势，EssayJudge旨在提供精确、富有上下文的评估，无需手动特征工程，解决了传统AES的长期局限性。我们的实验使用了18个代表性MLLM，揭示了与人类评估相比，AES在话语级特征上的绩效差距，突显了基于MLLM的AES研究需要进一步的进步。我们的数据集和代码将在接受后提供。