LLM2D

摘要

arXiv:2408.17422v5 宣告类型: replace-cross 摘要：视频动作定位旨在从长视频中找到特定动作的时间点。尽管现有的基于学习的方法已经取得了成功，但它们需要标注视频，这伴随了相当大的人力成本。本文提出了一个无需训练、基于新兴的现成视觉语言模型（VLMs）的开放词汇方法。挑战在于这些视觉语言模型既不是为处理长视频设计的，也不是为找到动作而定制的。我们通过扩展一种迭代的视觉提示技术来克服这些问题。具体来说，我们采样视频帧，并创建一个带有帧索引标签的连接图像，允许VLM识别最有可能对应于动作开始和结束的帧。通过逐步缩小选定帧周围的采样窗口，估计逐渐收敛到更精确的时间边界。我们展示了该技术可以获得合理的性能，其结果与最先进的零样本动作定位相当。这些结果支持将VLMs作为理解视频的实用工具使用。示例代码可在 https://microsoft.github.io/VLM-Video-Action-Localization/ 可用。