LLM2D

摘要

arXiv:2502.08826v2 通知类型: 替换交叉摘要：大型语言模型（LLMs）由于依赖静态训练数据，面临着幻觉和过时知识的问题。检索增强生成（RAG）通过整合外部动态信息来缓解这些问题，增强事实性和更新的知识基础。最近多模态学习的进展导致了多模态RAG的发展，它结合了多种模态，如文本、图像、音频和视频，以增强生成输出。然而，跨模态对齐和推理引入了多模态RAG的独特挑战，使其与传统的单模态RAG不同。本文综述提供了一种结构化和全面的多模态RAG系统分析，涵盖数据集、度量标准、基准、评估、方法论以及检索、融合、增强和生成方面的创新。我们详细审查了训练策略、鲁棒性增强和损失函数，并探讨了多样化的多模态RAG场景。此外，我们讨论了开放的挑战和未来的研究方向，以支持这一不断发展的领域的进步。本文为开发更强大、更可靠的AI系统奠定了基础，这些系统能够有效利用多模态动态外部知识库。资源可在 https://github.com/llm-lab-org/Multimodal-RAG-Survey 中找到。