LLM2D

摘要

arXiv:2504.10074v2 更新类型: 替换摘要：大型语言模型（LLMs）和多模态LLMs的最近进步是显著的。然而，这些模型仍然仅依赖于参数化的知识，这限制了它们生成最新信息的能力，并增加了产生错误内容的风险。检索增强生成（RAG）部分缓解了这些问题，通过引入外部数据源，但对数据库和检索系统依赖可能会引入无关或不准确的文档，最终损害了性能和推理质量。在本文中，我们提出了一种新的多模态知识增强检索增强生成（MMKB-RAG）框架，该框架利用模型固有的知识边界来动态生成检索过程中的语义标签。该策略使检索到的文档能够联合过滤，仅保留最相关和准确的引用。在基于知识的视觉问答任务上的广泛实验表明了我们方法的有效性：在E-VQA数据集上，我们的方法在Single-Hop子集上提高了4.2%的性能，在完整数据集上提高了0.4%的性能；在InfoSeek数据集上，它分别在Unseen-Q子集、Unseen-E子集和完整数据集上实现了7.8%、8.2%和8.1%的性能提升。这些结果突显了与当前前沿的多模态LLM和RAG框架相比，在准确性和鲁棒性方面的显著改进。