LLM2D

摘要

arXiv:2502.08826v1 类型:交叉学科摘要:由于依赖静态训练数据，大型语言模型（LLMs）在幻觉和过时知识方面存在困难。检索增强生成（RAG）通过集成外部动态信息来缓解这些问题，增强了事实和更新的知识基础。近期多模态学习的进步催生了多模态RAG的发展，将文本、图像、音频和视频等多种模态整合在一起，以增强生成输出。然而，跨模态对齐和推理给多模态RAG带来了独特的挑战，将它与传统的单模态RAG区分开来。本综述提供了多模态RAG系统的结构化和全面分析，涵盖了数据集、度量、基准、评估、方法论以及检索、融合、增强和生成的创新。我们精确地回顾了训练策略、鲁棒性增强和损失函数，并探讨了多样的多模态RAG场景。此外，我们讨论了开放的挑战和未来的研究方向，以支持该不断发展的领域的进步。本综述为开发更强大和可靠的AI系统奠定了基础，这些系统能够有效利用多模态动态外部分知识库。资源可在 https://github.com/llm-lab-org/Multimodal-RAG-Survey 获取。