LLM2D

摘要

arXiv:2504.10074v3 公告类型：替换摘要：近年来，大型语言模型（LLMs）和多模态LLMs取得了显著进展。然而，这些模型依然仅依赖于其参数化的知识，这限制了其生成最新信息的能力，并增加了生成错误内容的风险。检索增强生成（RAG）部分缓解了这些挑战，通过引入外部数据源来增强模型，但对数据库和检索系统的依赖可能会引入无关或不准确的文档，最终损害了性能和推理质量。本文提出了一种新的多模态知识增强检索增强生成（MMKB-RAG）框架，该框架利用模型固有的知识边界动态生成语义标签，以优化检索过程。这种策略使检索文档的联合过滤成为可能，仅保留最相关的准确参考。在基于知识的视觉问答任务的广泛实验中，我们的方法展示了其有效性：在E-VQA数据集中，我们的方法在Single-Hop子集上提高了4.2%的性能，在完整数据集上提高了0.4%；在InfoSeek数据集中，我们的方法在Unseen-Q子集上提高了7.8%，在Unseen-E子集上提高了8.2%，在完整数据集上提高了8.1%。这些结果突显了与当前最先进的LLM和RAG框架相比，在准确性和鲁棒性方面的显著提升。