摘要
arXiv:2502.01549v1 类别:交叉学科
摘要:检索增强生成(RAG)已经在通过外部知识集成增强大型语言模型(LLMs)方面取得了显著的成功,然而其应用主要集中在文本内容上,而丰富的多媒体视频知识领域则被大量忽视。本文介绍了VideoRAG,这是第一个专门设计用于处理和理解极长上下文视频的检索增强生成框架。我们的核心创新在于其双通道架构,无缝地结合了(i)基于图的文本知识 grounding,用于捕捉跨视频语义关系,以及(ii)多模态上下文编码,用于高效地保留视觉特征。这一新颖的设计使VideoRAG能够通过构建跨越多个视频且通过专门的多模态检索范式保持语义依赖的精确知识图,来处理任意长度的视频。在我们提出的包括超过160个视频共计134+小时长度的LongerVideos基准测试集合上进行全面的经验性评估表明,VideoRAG在性能上显著优于现有的RAG替代方案和长视频理解方法。VideoRAG的实现源代码和基准数据集已在以下链接公开:https://github.com/HKUDS/VideoRAG。