LLM2D

摘要

先进的多模态大型语言模型 (MLLM) 在最近的基于知识的视觉问答 (VQA) 任务（例如 INFOSEEK 和 Encyclopedic-VQA）中表现挣扎，因为它们的知识范围有限且固定，常常导致回答模棱两可且不准确。因此，多模态检索增强生成 (mRAG) 方法被自然地引入，为 MLLM 提供全面且最新的知识，有效地扩展了知识范围。然而，目前的 mRAG 方法存在固有的缺点，包括：1）即使不需要外部知识也进行检索；2）缺乏对支持查询的证据的识别；3）由于额外的信息过滤模块或规则而增加了模型复杂性。为了解决这些缺点，我们提出了一种新颖的通用框架，称为多模态检索-反思-增强生成 (mR$^2$AG)，它通过两个易于实现的反思操作实现自适应检索和有用信息定位，从而生成答案，避免了高模型复杂性。在 mR$^2$AG 中，检索-反思旨在区分不同的用户查询并避免冗余的检索调用，而相关性-反思则用于引导 MLLM 定位检索内容的有益证据并据此生成答案。此外，mR$^2$AG 可以集成到任何经过良好训练的 MLLM 中，并在提出的 mR$^2$AG 指令微调数据集 (mR$^2$AG-IT) 上进行高效的微调。mR$^2$AG 在 INFOSEEK 和 Encyclopedic-VQA 上显著优于最先进的 MLLM（例如，GPT-4v/o）和基于 RAG 的 MLLM，同时保持了基础 MLLM 在各种视觉相关任务中的出色能力。