摘要
尽管大型多模态模型取得了进展,但由于上下文长度限制和巨大的内存开销,将它们应用于长而未经剪辑的视频内容仍然具有挑战性。这些限制通常会导致模型响应中出现重大信息丢失和相关性降低。随着网络平台上视频数据的指数级增长,理解长篇视频对于推进通用人工智能至关重要。在本文中,我们介绍了SALOVA:基于片段增强的长视频助手,这是一个新颖的视频-大型语言模型框架,旨在通过有针对性的检索过程来增强对冗长视频内容的理解。我们解决了实现这一目标的两个主要挑战:(i)我们提出了SceneWalk数据集,这是一个高质量的87.8K个长视频集合,每个视频在片段级别进行了密集的字幕标注,使模型能够捕捉场景连续性并保持丰富的描述性上下文。(ii)我们开发了集成了动态路由机制和时空投影器的强大架构设计,以便根据用户查询高效地检索和处理相关的视频片段。我们的框架通过允许根据查询精确识别和检索相关的视频片段来减轻当前视频大型语言模型的局限性,从而提高生成响应的上下文相关性。通过大量的实验,SALOVA证明了其在处理复杂的长篇视频方面的增强能力,显示出在扩展序列中保持上下文完整性的显著能力。