摘要
arXiv:2504.10074v2 更新类型: 替换
摘要:大型语言模型(LLMs)和多模态LLMs的最近进步是显著的。然而,这些模型仍然仅依赖于参数化的知识,这限制了它们生成最新信息的能力,并增加了产生错误内容的风险。检索增强生成(RAG)部分缓解了这些问题,通过引入外部数据源,但对数据库和检索系统依赖可能会引入无关或不准确的文档,最终损害了性能和推理质量。在本文中,我们提出了一种新的多模态知识增强检索增强生成(MMKB-RAG)框架,该框架利用模型固有的知识边界来动态生成检索过程中的语义标签。该策略使检索到的文档能够联合过滤,仅保留最相关和准确的引用。在基于知识的视觉问答任务上的广泛实验表明了我们方法的有效性:在E-VQA数据集上,我们的方法在Single-Hop子集上提高了4.2%的性能,在完整数据集上提高了0.4%的性能;在InfoSeek数据集上,它分别在Unseen-Q子集、Unseen-E子集和完整数据集上实现了7.8%、8.2%和8.1%的性能提升。这些结果突显了与当前前沿的多模态LLM和RAG框架相比,在准确性和鲁棒性方面的显著改进。