摘要
arXiv:2504.13460v2 声明类型: replace-cross
摘要:传统的时空动作定位(TAL)方法依赖于大量详细的标注数据,而少数-shot TAL通过仅使用少量训练样本识别未见过的动作类别,从而减少了这种依赖性。然而,现有的少数-shot TAL方法通常仅集中于视频级别的信息,忽略了文本信息,这些文本信息可以为定位任务提供有价值的语义支持。因此,我们提出了一种基于Chain-of-Thought文本推理的新少数-shot时空动作定位方法,以提高定位性能。具体来说,我们设计了一种新型少数-shot学习框架,利用文本语义信息增强模型捕捉动作共性和变异的能力,其中包括一种设计用于在不同级别对查询和支撑视频进行对齐的语义感知文本-视觉对齐模块。同时,为了在文本级别更好地表达动作之间的时序依赖性和因果关系,以辅助动作定位,我们设计了一种类似于Chain of Thought (CoT)的推理方法,逐步引导视觉语言模型(VLM)和大型语言模型(LLM)为视频生成CoT-like文本描述。生成的文本可以捕捉到比视觉特征更多的动作变异。我们在公开可用的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们介绍了第一个名为Human-related Anomaly Localization的数据库,并探讨了TAL任务在人类异常检测中的应用。实验结果表明,我们提出的方法在单实例和多实例场景中显著优于现有方法。我们将发布我们的代码、数据和基准。