摘要
arXiv:2504.10074v3 公告类型:替换
摘要:近年来,大型语言模型(LLMs)和多模态LLMs取得了显著进展。然而,这些模型依然仅依赖于其参数化的知识,这限制了其生成最新信息的能力,并增加了生成错误内容的风险。检索增强生成(RAG)部分缓解了这些挑战,通过引入外部数据源来增强模型,但对数据库和检索系统的依赖可能会引入无关或不准确的文档,最终损害了性能和推理质量。本文提出了一种新的多模态知识增强检索增强生成(MMKB-RAG)框架,该框架利用模型固有的知识边界动态生成语义标签,以优化检索过程。这种策略使检索文档的联合过滤成为可能,仅保留最相关的准确参考。在基于知识的视觉问答任务的广泛实验中,我们的方法展示了其有效性:在E-VQA数据集中,我们的方法在Single-Hop子集上提高了4.2%的性能,在完整数据集上提高了0.4%;在InfoSeek数据集中,我们的方法在Unseen-Q子集上提高了7.8%,在Unseen-E子集上提高了8.2%,在完整数据集上提高了8.1%。这些结果突显了与当前最先进的LLM和RAG框架相比,在准确性和鲁棒性方面的显著提升。