摘要
arXiv:2504.10074v1 通知类型: 新
摘要: 近年来,大型语言模型(LLMs)和多模态LLMs取得了显著进展。然而,这些模型仍然仅依赖其参数知识,这限制了它们生成最新信息的能力,增加了生成错误内容的风险。检索增强生成(RAG)部分缓解了这些挑战,通过引入外部数据源进行辅助,但依赖数据库和检索系统可能会引入无关或不准确的文档,最终损害了性能和推理质量。在本文中,我们提出了一种新颖的多模态基于知识的检索增强生成(MMKB-RAG)框架,该框架利用模型固有的知识边界,动态生成检索过程中的语义标签。这一策略使检索到的文档能够联合过滤,只保留最相关和准确的引用。在基于知识的视觉问答任务上的广泛实验表明了我们方法的有效性:在E-VQA数据集中,我们的方法在Single-Hop子集上提高了4.2%的性能,在完整数据集上提高了0.4%;在InfoSeek数据集中,我们的方法在Unseen-Q子集中获得了7.8%的提升,在Unseen-E子集中获得了8.2%的提升,在完整数据集上获得了8.1%的提升。这些结果突显了我们的方法在准确性和鲁棒性方面显著优于当前最先进的MLLM和RAG框架。