摘要
arXiv:2502.08826v1 类型:交叉学科
摘要:由于依赖静态训练数据,大型语言模型(LLMs)在幻觉和过时知识方面存在困难。检索增强生成(RAG)通过集成外部动态信息来缓解这些问题,增强了事实和更新的知识基础。近期多模态学习的进步催生了多模态RAG的发展,将文本、图像、音频和视频等多种模态整合在一起,以增强生成输出。然而,跨模态对齐和推理给多模态RAG带来了独特的挑战,将它与传统的单模态RAG区分开来。本综述提供了多模态RAG系统的结构化和全面分析,涵盖了数据集、度量、基准、评估、方法论以及检索、融合、增强和生成的创新。我们精确地回顾了训练策略、鲁棒性增强和损失函数,并探讨了多样的多模态RAG场景。此外,我们讨论了开放的挑战和未来的研究方向,以支持该不断发展的领域的进步。本综述为开发更强大和可靠的AI系统奠定了基础,这些系统能够有效利用多模态动态外部分知识库。资源可在 https://github.com/llm-lab-org/Multimodal-RAG-Survey 获取。