LLM2D
带有迭代视觉提示的开放词汇动作本地化
Open-Vocabulary Action Localization with Iterative Visual Prompting
作者: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2408.17422v5

摘要

arXiv:2408.17422v5 宣告类型: replace-cross 摘要:视频动作定位旨在从长视频中找到特定动作的时间点。尽管现有的基于学习的方法已经取得了成功,但它们需要标注视频,这伴随了相当大的人力成本。本文提出了一个无需训练、基于新兴的现成视觉语言模型(VLMs)的开放词汇方法。挑战在于这些视觉语言模型既不是为处理长视频设计的,也不是为找到动作而定制的。我们通过扩展一种迭代的视觉提示技术来克服这些问题。具体来说,我们采样视频帧,并创建一个带有帧索引标签的连接图像,允许VLM识别最有可能对应于动作开始和结束的帧。通过逐步缩小选定帧周围的采样窗口,估计逐渐收敛到更精确的时间边界。我们展示了该技术可以获得合理的性能,其结果与最先进的零样本动作定位相当。这些结果支持将VLMs作为理解视频的实用工具使用。示例代码可在 https://microsoft.github.io/VLM-Video-Action-Localization/ 可用。