LLM2D

摘要

多模态大型语言模型 (MLLMs) 的快速发展为人工智能带来了重大进步，显著增强了理解和生成多模态内容的能力。虽然之前的研究主要集中在模型架构和训练方法上，但对用于评估这些模型的基准的深入分析仍未得到充分探索。本综述通过系统地回顾 211 个基准来解决这一差距，这些基准评估了 MLLMs 在四个核心领域的表现：理解、推理、生成和应用。我们对跨不同模态的任务设计、评估指标和数据集构建进行了详细分析。我们希望本综述能够通过全面概述基准实践并确定未来工作的有希望的方向，为 MLLM 研究的持续发展做出贡献。相关 GitHub 仓库收集了最新的论文。