摘要
arXiv:2411.12593v3 宣布类型: 替换-交叉
摘要:大型语言模型(LLMs)的进步通过将LLMs与视觉模型结合,促进了视频理解任务的改进。然而,目前大多数基于LLM的模型(例如,VideoLLaMA、VideoChat)仅限于处理短时长视频。最近尝试通过提取和压缩视觉特征至固定的记忆大小来理解长期视频。尽管这些方法仅利用视觉模态来合并视频标记并忽略了视觉和文本查询之间的相关性,导致在复杂问答任务中难以有效处理。为了解决长视频和复杂提示的挑战,我们提出了AdaCM$^2$,这是首次在视频流中以自回归方式引入自适应跨模态记忆减量方法进行视频-文本对齐。我们在视频字幕、视频问答和视频分类等多种视频理解任务上的广泛实验表明,AdaCM$^2$在多个数据集上达到了最先进的性能,同时显著减少了内存使用。值得注意的是,该方法在LVU数据集上实现多个任务4.5%的改进,并将GPU内存消耗降低高达65%。