LLM2D

摘要

作为通用人工智能 (AGI) 的一个重要方向，多模态大型语言模型 (MLLM) 越来越受到业界和学术界的关注。这类模型在预训练大型语言模型的基础上，进一步发展了令人印象深刻的多模态感知和推理能力，例如根据流程图编写代码或根据图像创作故事。在开发过程中，评估至关重要，因为它可以提供直观的反馈并指导模型改进。与仅偏向于图像分类等单一任务的传统训练-评估-测试范式不同，MLLM 的多功能性促使各种新的基准和评估方法的兴起。本文旨在对 MLLM 评估进行全面综述，讨论四个关键方面：1) 按评估能力划分的基准类型摘要，包括基础能力、模型自我分析和扩展应用；2) 基准构建的典型过程，包括数据收集、标注和注意事项；3) 由评判者、指标和工具包组成的系统评估方法；4) 下一代基准的展望。这项工作旨在帮助研究人员轻松掌握如何根据不同需求有效地评估 MLLM，并激发更好的评估方法，从而推动 MLLM 研究的进步。