LLM2D

摘要

时序动作定位（TAL）中的词汇量受限于大规模标注数据集的稀缺性。为了克服这一问题，最近的研究将视觉语言模型（VLM），例如 CLIP，集成到开放词汇 TAL（OV-TAL）中。然而，尽管在大型数据集上训练的 VLM 取得了成功，但现有的 OV-TAL 方法仍然依赖于有限规模的人工标注 TAL 数据集来训练动作定位器，这限制了它们的泛化能力。本文探讨了使用未标注的 YouTube 视频进行自训练以实现 OV-TAL 的可扩展性。我们的方法分为两个阶段：（1）在人工标注的 TAL 数据集上训练一个类别无关的动作定位器，以生成未标注视频的伪标签，以及（2）然后使用大规模伪标签数据集来训练定位器。大量的实验表明，在自训练中利用网络规模的视频显著提高了动作定位器的泛化能力。此外，我们还识别了现有 OV-TAL 评估方案中的局限性，并提出了一种新的基准来进行全面评估。最后，我们在新的基准上展示了大型多模态模型 Gemini-1.5 的 TAL 性能。代码已发布在 https://github.com/HYUNJS/STOV-TAL。