摘要
视觉语言模型 (VLMs) 对于需要整合文本和视觉信息理解的应用至关重要。然而,现有的 VLMs 由于计算效率低、内存限制以及难以在较长序列中保持一致的理解,难以处理长视频。为了解决这些挑战,我们引入了 ReWind,这是一种新颖的基于内存的 VLM,旨在高效地理解长视频,同时保持时间保真度。ReWind 采用两阶段框架。在第一阶段,ReWind 使用一种新颖的**读-感知-写**循环维护一个动态可学习的内存模块,该模块在视频展开时存储和更新与指令相关的视觉信息。该模块利用可学习的查询以及内存内容和输入流之间的交叉注意力,通过线性扩展令牌数量来确保低内存需求。在第二阶段,我们提出了一种由内存内容引导的自适应帧选择机制,以识别与指令相关的关键时刻。它通过选择一些高分辨率帧来丰富内存表示中的详细空间信息,然后将这些帧与内存内容结合起来,并输入大型语言模型 (LLM) 以生成最终答案。我们在视觉问答 (VQA) 和时间定位任务中实证地证明了 ReWind 的优越性能,在长视频基准测试中超越了以前的方法。值得注意的是,ReWind 在 MovieChat-1K VQA 数据集上实现了 +13% 的分数增益和 +12% 的精度提高,在 Charades-STA 时间定位任务上实现了 +8% 的 mIoU 提升。