LLM2D

摘要

arXiv:2504.08748v1 交叉公告类型：跨领域摘要：多模态检索增强生成（MRAG）通过将多模态数据（文本、图像、视频）纳入检索和生成过程中，增强了大型语言模型（LLMs），克服了仅依赖文本的检索增强生成（RAG）的局限性。虽然RAG通过整合外部文本知识提高了响应准确性，MRAG则将此框架扩展至包含多模态检索和生成，利用来自不同数据类型上下文的信息。这种方法通过将响应扎根于事实性的多模态知识来减少幻想现象，并增强问答系统。最近的研究显示，MRAG在需要同时理解和处理视觉和文本信息的情景中，比传统RAG表现出更优的效果。本文综述了MRAG的关键组成部分、数据集、评估方法及其局限性，提供了有关其构建和改进的见解。此外，本文还指出了面临的挑战和未来的研究方向，突显了MRAG有潜力彻底改变多模态信息检索和生成。通过提供全面的视角，本文鼓励进一步探索这一有前途的范式。