摘要
多模态大型语言模型 (MLLMs) 在处理和生成跨多种数据模态的内容方面展现出了非凡的能力。然而,MLLMs 的一个重大缺陷是它们依赖于静态训练数据,导致信息过时且上下文感知能力有限。这种静态特性阻碍了它们提供准确和最新响应的能力,尤其是在动态或快速变化的语境中。尽管集成多模态检索增强生成 (Multimodal RAG) 提供了一种很有前景的解决方案,但该系统不可避免地会遇到多粒度噪声对应 (MNC) 问题,这阻碍了准确的检索和生成。在本研究中,我们提出了 RagVL,一个具有知识增强重新排序和噪声注入训练的新框架,以解决这些限制。我们使用一个简单但有效的指令模板对 MLLM 进行指令微调,以诱导其排名能力,并将其用作重新排序器,以精确过滤前 k 个检索到的图像。为了生成,我们在训练期间在数据和标记级别注入视觉噪声,以增强生成器的鲁棒性。在需要检索和推理图像以回答给定查询的两个数据集的子集上进行的大量实验验证了我们方法的有效性。代码和模型可在 https://github.com/IDEA-FinAI/RagVL 获取。