摘要
arXiv:2504.10443v1 类型: cross
摘要:大型语言模型(LLMs)的最新进展在视频理解方面取得了显著突破。然而,现有的模型仍然难以处理长时间的视频处理问题,这主要是由于LLMs的上下文长度限制以及视频中的大量信息。虽然有一些最近的方法被设计用于长时间视频理解,但在进行标记压缩时,它们往往会丢失重要的信息,并且难以处理像音频这样的附加模态。在本文中,我们提出了一种利用帧之间时间关系的动态长时间视频编码方法,名为Temporal Dynamic Context(TDC)。首先,我们根据帧间的相似性将视频分割为语义一致的场景,然后使用视觉-音频编码器将每一帧编码为标记。其次,我们提出了一种新颖的时间上下文压缩方法来减少每个片段内的标记数量。具体来说,我们采用基于查询的Transformer将视频、音频和指令文本标记聚合为有限的时间上下文标记集。最后,我们将静态帧标记和时间上下文标记输入LLM进行视频理解。此外,为了处理极其长的视频,我们提出了一种无需训练的思考链策略,该策略逐步从多个视频片段中提取答案。这些中间答案作为推理过程的一部分,并有助于最终答案。我们对通用视频理解和视听理解基准进行了广泛的实验,其中我们的方法表现出强大的性能。代码和模型可在https://github.com/Hoar012/TDC-Video获取。