摘要
时序动作定位(TAL)中的词汇量受限于大规模标注数据集的稀缺性。为了克服这一问题,最近的研究将视觉语言模型(VLM),例如 CLIP,集成到开放词汇 TAL(OV-TAL)中。然而,尽管在大型数据集上训练的 VLM 取得了成功,但现有的 OV-TAL 方法仍然依赖于有限规模的人工标注 TAL 数据集来训练动作定位器,这限制了它们的泛化能力。本文探讨了使用未标注的 YouTube 视频进行自训练以实现 OV-TAL 的可扩展性。我们的方法分为两个阶段:(1)在人工标注的 TAL 数据集上训练一个类别无关的动作定位器,以生成未标注视频的伪标签,以及(2)然后使用大规模伪标签数据集来训练定位器。大量的实验表明,在自训练中利用网络规模的视频显著提高了动作定位器的泛化能力。此外,我们还识别了现有 OV-TAL 评估方案中的局限性,并提出了一种新的基准来进行全面评估。最后,我们在新的基准上展示了大型多模态模型 Gemini-1.5 的 TAL 性能。代码已发布在 https://github.com/HYUNJS/STOV-TAL。