LLM2D
ReWind:理解长视频的可学习指令记忆
ReWind: Understanding Long Videos with Instructed Learnable Memory
作者: Anxhelo Diko, Tinghuai Wang, Wassim Swaileh, Shiyan Sun, Ioannis Patras
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2411.15556v2

摘要

arXiv:2411.15556v2 Announce Type: replace-cross 摘要:视觉-语言模型(VLMs)对于需要整合文字和视觉信息的应用至关重要。然而,现有的VLMs在处理长视频时遇到了计算效率低下、内存限制和在长时间序列中保持连贯理解的困难。为了解决这些挑战,我们提出了ReWind,这是一种新型的记忆型VLM,旨在实现高效的长视频理解同时保持时间连贯性。ReWind采用两阶段框架。在第一阶段,ReWind维持一个动态的可学习记忆模块,该模块使用新颖的“读-感知-写”周期来存储和更新与指令相关的时间展开的视觉信息。该模块利用可学习的查询和记忆内容与输入流之间的跨注意力,通过线性缩放与令牌数量保持低内存需求。在第二阶段,我们提出了一种根据记忆内容引导的自适应帧选择机制,以识别与指令相关的关键时刻。它通过选择少数高分辨率帧来丰富记忆表示中的详细空间信息,然后将这些帧与记忆内容结合,并输入大型语言模型(LLM)以生成最终答案。我们实验证明了ReWind在视觉问答(VQA)和时间定位任务上的优越性能,在长视频基准上超过了之前的方法。值得注意的是,ReWind在MovieChat-1K VQA数据集上的得分提高了13%,准确性提高了12%,在Charades-STA的时间定位上实现了8%的mIoU提升。