摘要
arXiv:2502.08826v2 通知类型: 替换交叉
摘要:大型语言模型(LLMs)由于依赖静态训练数据,面临着幻觉和过时知识的问题。检索增强生成(RAG)通过整合外部动态信息来缓解这些问题,增强事实性和更新的知识基础。最近多模态学习的进展导致了多模态RAG的发展,它结合了多种模态,如文本、图像、音频和视频,以增强生成输出。然而,跨模态对齐和推理引入了多模态RAG的独特挑战,使其与传统的单模态RAG不同。本文综述提供了一种结构化和全面的多模态RAG系统分析,涵盖数据集、度量标准、基准、评估、方法论以及检索、融合、增强和生成方面的创新。我们详细审查了训练策略、鲁棒性增强和损失函数,并探讨了多样化的多模态RAG场景。此外,我们讨论了开放的挑战和未来的研究方向,以支持这一不断发展的领域的进步。本文为开发更强大、更可靠的AI系统奠定了基础,这些系统能够有效利用多模态动态外部知识库。资源可在 https://github.com/llm-lab-org/Multimodal-RAG-Survey 中找到。