摘要
arXiv:2312.07384v2 通知类型: 替换-交叉
摘要: 最近,时空动作本地化(TAL)在信息检索社区中引起了广泛关注。然而,现有的监督/弱监督方法严重依赖于大量的标注时间边界和动作类别,这需要大量的劳动和时间。尽管一些无监督方法利用了“迭代聚类和本地化”的范式来进行TAL,它们仍然面临着两个关键障碍:1)不满意的视频聚类置信度,2)不可靠的视频伪标签用于模型训练。为了解决这些局限性,我们提出了一种新颖的自适应迭代学习模型,以同时增强聚类和本地化训练,从而促进更有效的无监督TAL。具体来说,我们通过探索上下文特征鲁棒的视觉信息来提高聚类置信度。之后,我们设计了两种(恒速和变速)增量实例学习策略,以实现从易到难的模型训练,从而确保这些视频伪标签的可靠性,并进一步提高整体定位性能。在两个公开数据集上的广泛实验已经证明了我们模型的优越性,相较于几个最先进的竞争对手。