LLM2D

摘要

视频大型语言模型 (Video LLMs) 在视频和语言任务（例如视频问答）中取得了令人印象深刻的性能。然而，大多数现有的 Video LLMs 忽略了视频数据中的时间信息，导致在时间感知视频理解方面存在困难。为了解决这一差距，我们提出了一种时间门控视频 LLM (TG-Vid)，旨在通过一个新颖的时间门控模块 (TG) 来增强时间建模。TG 模块在其子模块上采用时间门控机制，包括门控空间注意力、门控时间注意力和门控 MLP。这种架构使我们的模型能够对视频中的时间信息进行稳健的理解。对时间敏感视频基准（即 MVBench、TempCompass 和 NExT-QA）的广泛评估表明，我们的 TG-Vid 模型明显优于现有的 Video LLMs。此外，全面的消融研究验证了性能提升归因于我们 TG 模块的设计。我们的代码可在 https://github.com/LaVi-Lab/TG-Vid 获取。