摘要
视频动作定位旨在从长视频中找到特定动作的时间。尽管现有的基于学习的方法已经取得成功,但它们需要对视频进行标注,这会带来相当大的劳动成本。本文提出了一种基于新兴的现成视觉语言模型 (VLM) 的无学习、开放词汇方法。挑战源于 VLM 既不是为处理长视频而设计的,也不是专门用于寻找动作的。我们通过扩展迭代视觉提示技术克服了这些问题。具体来说,我们对视频帧进行采样,并创建一个带有帧索引标签的串联图像,让 VLM 猜测被认为最接近动作开始和结束的帧。通过缩小采样时间窗口来迭代此过程可以找到与动作开始和结束相对应的特定帧。我们证明了这种技术可以产生合理的性能,取得的结果与最先进的零样本动作定位相当。这些结果说明了 VLM 在理解视频方面的实用扩展。示例代码可在 https://microsoft.github.io/VLM-Video-Action-Localization/ 上找到。