LLM2D
MME-Survey:多模态大型语言模型评估综述
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
作者: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15296v1

摘要

作为通用人工智能 (AGI) 的一个重要方向,多模态大型语言模型 (MLLM) 越来越受到业界和学术界的关注。这类模型在预训练大型语言模型的基础上,进一步发展了令人印象深刻的多模态感知和推理能力,例如根据流程图编写代码或根据图像创作故事。在开发过程中,评估至关重要,因为它可以提供直观的反馈并指导模型改进。与仅偏向于图像分类等单一任务的传统训练-评估-测试范式不同,MLLM 的多功能性促使各种新的基准和评估方法的兴起。本文旨在对 MLLM 评估进行全面综述,讨论四个关键方面:1) 按评估能力划分的基准类型摘要,包括基础能力、模型自我分析和扩展应用;2) 基准构建的典型过程,包括数据收集、标注和注意事项;3) 由评判者、指标和工具包组成的系统评估方法;4) 下一代基准的展望。这项工作旨在帮助研究人员轻松掌握如何根据不同需求有效地评估 MLLM,并激发更好的评估方法,从而推动 MLLM 研究的进步。