摘要
arXiv:2503.20348v1 类别: cross
摘要:视觉语言基础模型在各种零样本任务中展示了令人印象深刻的性能,包括无需训练的定位和语义关联,主要侧重于在图像中定位物体。然而,将这些能力应用于在视频中定位动作和事件是具有挑战性的,因为动作在物理轮廓上较少,通常由高层概念描述。在本文中,我们提出VideoGEM,这是一种基于预训练图像和视频语言骨干的无需训练的空间动作定位方法。具体而言,我们将GEM的自我注意表达形式扩展到空间活动定位。我们观察到,高层语义概念,如动作,通常在图像和视频语言模型的高层中出现。因此,我们提出了一种自我注意路径中的分层权重方法,以优先考虑更高层。此外,我们引入了一种动态权重方法,以自动调整分层权重,以捕捉每层对特定提示的相关性。最后,我们引入了提示分解,分别处理动词、动作和物体提示,从而更好地定位动作。我们使用CLIP、OpenCLIP和ViCLIP三种图像和视频语言 Backbone,以及V-HICO、DALY、YouCook-Interactions和GroundingYouTube四个视频语义定位数据集对提出的方法进行了评估,结果显示,提出的无需训练的方法能够超越当前已训练的最先进的空间视频语义定位方法。