LLM2D

摘要

arXiv:2505.07879v1 交叉类型: 摘要：视觉-语言检索增强生成（RAG）已成为应对基于知识的视觉问答（KB-VQA）的有效方法，KB-VQA 需要超出图像中呈现视觉内容的外部知识。视觉-语言 RAG 系统的有效性在于其多模态检索，由于查询和知识库中的多元模态和知识粒度的多样性，这本身就是一个具有挑战性的任务。现有的方法尚未充分挖掘这些元素之间的潜力。我们提出了一种多模态 RAG 系统，该系统具有从粗到细、多步骤的检索，以协调多个粒度和模态，从而提高效果。该系统首先进行广泛的初始搜索以实现跨模态检索的知识粒度对齐，然后进行多模态融合检索重塑以捕捉精致的多模态信息进行实体选择。随后的文本检索器筛选出最相关的细粒度部分进行增强生成。在 InfoSeek 和 Encyclopedic-VQA 基准上的广泛实验显示，我们的方法实现了最先进的检索性能，并且具有很强的竞争回答结果，突显了其在推进 KB-VQA 系统方面的有效性。