摘要
arXiv:2406.11230v2 公告类型: replace-cross
摘要: 多模态大型语言模型(MLLMs)在各种应用中展现了显著的潜力,从而引起了研究者和从业者广泛的兴趣。然而,对其长上下文能力的全面评估仍未得到充分探索。为解决这些差距,我们引入了多模态针锋相对基准(MMNeedle),旨在评估MLLMs的长上下文能力。除了多图像输入外,我们还使用图像拼接以进一步增加输入上下文长度,并开发了一个协议以自动生成子图像级别检索的标签。本质上,MMNeedle通过基于文本指令和图像内容描述来评估MLLMs在其定位一组图像(堆栈)中的目标子图像(针)方面的长上下文能力。这一设置要求具备对广泛视觉上下文的高级理解及有效的长上下文图像输入中的信息检索。借助此基准,我们评估了当前最先进的MLLMs,涵盖了基于API和开源模型。研究结果表明,GPT-4o在长上下文场景中一直领先于其他模型,但在负面样本中,即当针不在堆栈中时,会遭受幻觉问题。我们全面的长上下文评估也揭示了基于API和开源模型之间显著的性能差距。所有用于复制主要结果所需的所有代码、数据和说明都可以在 https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack 获得。