摘要
arXiv:2504.20734v1 交叉类型公告
摘要:检索增强生成(RAG)在通过将模型响应与相关查询的外部知识基础接地来提高事实准确性方面显示出了显著的潜力。然而,现有的大多数RAG方法仅限于文本_ONLY_语料库,尽管最近的努力已经将RAG扩展到了其他模态(如图像和视频)中,但它们通常在同一类型的专门语料库上操作。相比之下,实际查询在所需知识的类型上变化广泛,单一类型的知识来源无法解决这些问题。为了解决这个问题,我们引入了UniversalRAG,这是一种新的RAG框架,旨在从具有多种模态和粒度层次的知识来源中检索和整合知识。具体来说,鉴于将所有模态强制统一到源自单一合并语料库的统一表示空间中会导致模态差距,检索倾向于偏好与查询相同模态的项目,我们提出了一种模态意识路由机制,该机制能够动态确定最合适的模态特定语料库,并在其中执行针对性的检索。此外,我们不仅在模态层面进行组织,还将每个模态细分为多个粒度级别,这使得检索可以根据查询的复杂性和范围进行精确调整。我们在涵盖多种模态的8个基准上验证了UniversalRAG,显示出与专门的模态基线和统一基线相比的优势。