摘要
arXiv:2504.08748v1 交叉公告类型:跨领域
摘要:多模态检索增强生成(MRAG)通过将多模态数据(文本、图像、视频)纳入检索和生成过程中,增强了大型语言模型(LLMs),克服了仅依赖文本的检索增强生成(RAG)的局限性。虽然RAG通过整合外部文本知识提高了响应准确性,MRAG则将此框架扩展至包含多模态检索和生成,利用来自不同数据类型上下文的信息。这种方法通过将响应扎根于事实性的多模态知识来减少幻想现象,并增强问答系统。最近的研究显示,MRAG在需要同时理解和处理视觉和文本信息的情景中,比传统RAG表现出更优的效果。本文综述了MRAG的关键组成部分、数据集、评估方法及其局限性,提供了有关其构建和改进的见解。此外,本文还指出了面临的挑战和未来的研究方向,突显了MRAG有潜力彻底改变多模态信息检索和生成。通过提供全面的视角,本文鼓励进一步探索这一有前途的范式。