摘要
随着多模态大型语言模型(MLLMs)的快速发展,其评估已变得越来越全面。然而,理解长篇多模态内容作为现实世界应用的基础能力,仍未得到充分探索。在本工作中,我们提出了“多模态干草堆中的针”(MM-NIAH),这是第一个专门设计用于系统评估现有 MLLMs 理解长篇多模态文档能力的基准。我们的基准包括三种类型的评估任务:多模态检索、计数和推理。在每个任务中,模型需要根据散布在给定多模态文档中的不同关键信息来回答问题。通过在 MM-NIAH 上评估领先的 MLLMs,我们观察到现有模型在这些任务上仍有很大的改进空间,特别是在以视觉为中心的评估方面。我们希望这项工作能够为长篇多模态文档理解的进一步研究提供一个平台,并为 MLLMs 的发展做出贡献。代码和基准已发布在 https://github.com/OpenGVLab/MM-NIAH。