摘要
arXiv:2409.11513v2 通知类型: 替换-交叉
摘要:视频语言模型(VLMs)对于跨多种任务的一般化以及利用语言线索来增强学习至关重要。尽管以 transformer 为基础的架构一直是视觉-语言训练中的标准,但它们面临着如计算复杂性呈二次增长、高 GPU 内存使用率以及长时依赖关系处理困难等问题。为了应对这些限制,我们引入了 MambaVL,这是一种利用最近在选择性状态空间模态融合方面取得的进展来高效捕捉长范围依赖关系,并学习视觉和语言数据联合表示的新模型。MambaVL 在两个模态之间共享一个状态转换矩阵,使得模型能够捕捉场景中多重视角的动作信息。此外,我们提出了一项问答任务,帮助模型导向相关线索。这些问题提供了关于动作、物体和环境上下文的关键信息,从而提高了表现。因此,MambaVL 在 Epic-Kitchens-100 数据集上的动作识别方面达到了最先进的性能,并且在动作预判方面也优于基线方法。