LLM2D

摘要

视频包含丰富的时空信息。传统的动作提取方法，例如用于动作识别的任务，通常依赖于视觉内容而不是精确的动作特征。这种现象被称为“盲动提取”行为，由于缺乏运动引导线索，在捕捉感兴趣的运动方面效率低下。最近，注意力机制通过有效地突出显着视觉区域，增强了许多计算机视觉任务。受此启发，我们提出了一种带有可学习斜率和偏移参数的改进Sigmoid函数，作为一种注意力机制来调节来自帧差分图的运动信号。这种方法生成一系列注意力图，增强了与运动相关的视频内容的处理。为了确保注意力图的时间连续性和平滑性，我们应用成对的时间注意力变化正则化来去除不需要的运动（例如噪声），同时保留重要的运动。然后，我们在每一对注意力图和原始视频帧之间执行哈达玛积，以突出显示随着时间的推移而演变的感兴趣的运动。这些突出显示的运动，称为视频运动提示，随后被用作模型的输入，而不是原始视频帧。我们将此过程形式化为运动提示层，并将正则化项并入损失函数以学习更好的运动提示。该层充当模型和视频数据之间的适配器，弥合了传统“盲动提取”与提取相关感兴趣运动之间的差距。我们表明，我们的轻量级、即插即用运动提示层可以无缝集成到 SlowFast、X3D 和 TimeSformer 等模型中，从而提高 FineGym 和 MPII Cooking 2 等基准的性能。