LLM2D

摘要

arXiv:2312.07384v2 通知类型: 替换-交叉摘要: 最近，时空动作本地化（TAL）在信息检索社区中引起了广泛关注。然而，现有的监督/弱监督方法严重依赖于大量的标注时间边界和动作类别，这需要大量的劳动和时间。尽管一些无监督方法利用了“迭代聚类和本地化”的范式来进行TAL，它们仍然面临着两个关键障碍：1）不满意的视频聚类置信度，2）不可靠的视频伪标签用于模型训练。为了解决这些局限性，我们提出了一种新颖的自适应迭代学习模型，以同时增强聚类和本地化训练，从而促进更有效的无监督TAL。具体来说，我们通过探索上下文特征鲁棒的视觉信息来提高聚类置信度。之后，我们设计了两种（恒速和变速）增量实例学习策略，以实现从易到难的模型训练，从而确保这些视频伪标签的可靠性，并进一步提高整体定位性能。在两个公开数据集上的广泛实验已经证明了我们模型的优越性，相较于几个最先进的竞争对手。