LLM2D
了解你的目标:目标 Awareness Transformer 让时空视频定位更准确
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding
作者: Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11168v1

摘要

arXiv:2502.11168v1 宣告类型: cross 摘要: 受其端到端的流水线和有希望的结果影响,变压器在时空视觉定位生成(STVG)中受到了越来越多的关注。现有的基于变压器的STVG方法通常利用一组对象查询,这些查询简单地初始化为零,然后通过与多模态特征的迭代交互逐渐学习目标位置信息,以实现空间和时间的定位。尽管简单,但由于缺乏目标特定的线索,这些零对象查询在复杂场景下(例如存在干扰物或遮挡)很难通过与多模态特征的交互学习区分性目标信息,导致性能下降。为了解决这一问题,我们引入了一种新的目标感知变压器(TA-STVG)用于STVG,它旨在通过探索给定的视频-文本对中的目标特定线索,自适应地生成对象查询,以改善STVG。关键在于两个简单而有效的模块,包括文本引导的时间采样(TTS)和属性感知的空间激活(ASA),它们在级联中工作。前者专注于利用整体文本信息从视频中选择与目标相关的时间线索,而后者旨在进一步从先前的目标感知时间线索中利用对象的细粒度视觉属性信息,将其应用于对象查询的初始化。与利用零初始化查询的方法相比,我们的TA-STVG直接从给定的视频-文本对中生成的对象查询自然携带目标特定的线索,使它们更具适应性,并能更好地与多模态特征交互,以学习更多具有区分性的信息,从而改善STVG。在三个基准上的实验结果显示,TA-STVG达到了最先进的性能,并显著优于基线,验证了其有效性。