LLM2D
动与注视:视频运动提示
Motion meets Attention: Video Motion Prompts
作者: Qixiang Chen, Lei Wang, Piotr Koniusz, Tom Gedeon
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2407.03179v2

摘要

视频包含丰富的时空信息。传统的动作提取方法,例如用于动作识别的任务,通常依赖于视觉内容而不是精确的动作特征。这种现象被称为“盲动提取”行为,由于缺乏运动引导线索,在捕捉感兴趣的运动方面效率低下。最近,注意力机制通过有效地突出显着视觉区域,增强了许多计算机视觉任务。受此启发,我们提出了一种带有可学习斜率和偏移参数的改进Sigmoid函数,作为一种注意力机制来调节来自帧差分图的运动信号。这种方法生成一系列注意力图,增强了与运动相关的视频内容的处理。为了确保注意力图的时间连续性和平滑性,我们应用成对的时间注意力变化正则化来去除不需要的运动(例如噪声),同时保留重要的运动。然后,我们在每一对注意力图和原始视频帧之间执行哈达玛积,以突出显示随着时间的推移而演变的感兴趣的运动。这些突出显示的运动,称为视频运动提示,随后被用作模型的输入,而不是原始视频帧。我们将此过程形式化为运动提示层,并将正则化项并入损失函数以学习更好的运动提示。该层充当模型和视频数据之间的适配器,弥合了传统“盲动提取”与提取相关感兴趣运动之间的差距。我们表明,我们的轻量级、即插即用运动提示层可以无缝集成到 SlowFast、X3D 和 TimeSformer 等模型中,从而提高 FineGym 和 MPII Cooking 2 等基准的性能。