LLM2D
mR$^2$AG:基于知识的多模态检索-反思增强型问答生成
mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA
作者: Tao Zhang, Ziqi Zhang, Zongyang Ma, Yuxin Chen, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Yuxuan Zhao, Zehua Xie, Jin Ma, Ying Shan, Weiming Hu
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.15041v1

摘要

先进的多模态大型语言模型 (MLLM) 在最近的基于知识的视觉问答 (VQA) 任务(例如 INFOSEEK 和 Encyclopedic-VQA)中表现挣扎,因为它们的知识范围有限且固定,常常导致回答模棱两可且不准确。因此,多模态检索增强生成 (mRAG) 方法被自然地引入,为 MLLM 提供全面且最新的知识,有效地扩展了知识范围。然而,目前的 mRAG 方法存在固有的缺点,包括:1)即使不需要外部知识也进行检索;2)缺乏对支持查询的证据的识别;3)由于额外的信息过滤模块或规则而增加了模型复杂性。为了解决这些缺点,我们提出了一种新颖的通用框架,称为多模态检索-反思-增强生成 (mR$^2$AG),它通过两个易于实现的反思操作实现自适应检索和有用信息定位,从而生成答案,避免了高模型复杂性。在 mR$^2$AG 中,检索-反思旨在区分不同的用户查询并避免冗余的检索调用,而相关性-反思则用于引导 MLLM 定位检索内容的有益证据并据此生成答案。此外,mR$^2$AG 可以集成到任何经过良好训练的 MLLM 中,并在提出的 mR$^2$AG 指令微调数据集 (mR$^2$AG-IT) 上进行高效的微调。mR$^2$AG 在 INFOSEEK 和 Encyclopedic-VQA 上显著优于最先进的 MLLM(例如,GPT-4v/o)和基于 RAG 的 MLLM,同时保持了基础 MLLM 在各种视觉相关任务中的出色能力。