LLM2D
基于时间门控机制增强视频大型语言模型的时序建模
Enhancing Temporal Modeling of Video LLMs via Time Gating
作者: Zi-Yuan Hu, Yiwu Zhong, Shijia Huang, Michael R. Lyu, Liwei Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05714v1

摘要

视频大型语言模型 (Video LLMs) 在视频和语言任务(例如视频问答)中取得了令人印象深刻的性能。然而,大多数现有的 Video LLMs 忽略了视频数据中的时间信息,导致在时间感知视频理解方面存在困难。为了解决这一差距,我们提出了一种时间门控视频 LLM (TG-Vid),旨在通过一个新颖的时间门控模块 (TG) 来增强时间建模。TG 模块在其子模块上采用时间门控机制,包括门控空间注意力、门控时间注意力和门控 MLP。这种架构使我们的模型能够对视频中的时间信息进行稳健的理解。对时间敏感视频基准(即 MVBench、TempCompass 和 NExT-QA)的广泛评估表明,我们的 TG-Vid 模型明显优于现有的 Video LLMs。此外,全面的消融研究验证了性能提升归因于我们 TG 模块的设计。我们的代码可在 https://github.com/LaVi-Lab/TG-Vid 获取。