LLM2D

摘要

现有的多模态检索基准主要侧重于评估模型是否能够检索和利用外部文本知识来回答问题。然而，在某些情况下，检索视觉信息比检索文本数据更有益或更容易获取。在本文中，我们介绍了一个多模态检索增强生成基准，MRAG-Bench，在这个基准中，我们系统地识别和分类了视觉增强知识优于文本知识的场景，例如来自不同视角的更多图像。MRAG-Bench 包含 16,130 张图像和 1,353 个由人类标注的多项选择题，涵盖 9 种不同的场景。利用 MRAG-Bench，我们对 10 个开源和 4 个专有的大型视觉语言模型 (LVLMs) 进行了评估。我们的结果表明，所有 LVLMs 在使用图像增强后都比使用文本知识获得了更大的改进，这证实了 MRAG-Bench 是以视觉为中心的。此外，我们使用 MRAG-Bench 进行了广泛的分析，这为检索增强的 LVLMs 提供了宝贵的见解。值得注意的是，表现最好的模型 GPT-4o 在有效利用检索到的知识方面面临挑战，仅在使用真实信息的情况下获得了 5.82% 的改进，而人类参与者观察到的改进幅度为 33.16%。这些发现突出了 MRAG-Bench 的重要性，它鼓励社区增强 LVLMs 更加有效地利用检索到的视觉知识的能力。