摘要
视频大型语言模型 (Video LLMs) 在视频和语言任务(例如视频问答)中取得了令人印象深刻的性能。然而,大多数现有的 Video LLMs 忽略了视频数据中的时间信息,导致在时间感知视频理解方面存在困难。为了解决这一差距,我们提出了一种时间门控视频 LLM (TG-Vid),旨在通过一个新颖的时间门控模块 (TG) 来增强时间建模。TG 模块在其子模块上采用时间门控机制,包括门控空间注意力、门控时间注意力和门控 MLP。这种架构使我们的模型能够对视频中的时间信息进行稳健的理解。对时间敏感视频基准(即 MVBench、TempCompass 和 NExT-QA)的广泛评估表明,我们的 TG-Vid 模型明显优于现有的 Video LLMs。此外,全面的消融研究验证了性能提升归因于我们 TG 模块的设计。我们的代码可在 https://github.com/LaVi-Lab/TG-Vid 获取。