LLM2D

摘要

arXiv:2411.15556v2 Announce Type: replace-cross 摘要：视觉-语言模型（VLMs）对于需要整合文字和视觉信息的应用至关重要。然而，现有的VLMs在处理长视频时遇到了计算效率低下、内存限制和在长时间序列中保持连贯理解的困难。为了解决这些挑战，我们提出了ReWind，这是一种新型的记忆型VLM，旨在实现高效的长视频理解同时保持时间连贯性。ReWind采用两阶段框架。在第一阶段，ReWind维持一个动态的可学习记忆模块，该模块使用新颖的“读-感知-写”周期来存储和更新与指令相关的时间展开的视觉信息。该模块利用可学习的查询和记忆内容与输入流之间的跨注意力，通过线性缩放与令牌数量保持低内存需求。在第二阶段，我们提出了一种根据记忆内容引导的自适应帧选择机制，以识别与指令相关的关键时刻。它通过选择少数高分辨率帧来丰富记忆表示中的详细空间信息，然后将这些帧与记忆内容结合，并输入大型语言模型（LLM）以生成最终答案。我们实验证明了ReWind在视觉问答（VQA）和时间定位任务上的优越性能，在长视频基准上超过了之前的方法。值得注意的是，ReWind在MovieChat-1K VQA数据集上的得分提高了13%，准确性提高了12%，在Charades-STA的时间定位上实现了8%的mIoU提升。