LLM2D

摘要

arXiv:2504.13460v1 类别: cross 摘要: 传统的时序动作定位（TAL）方法依赖于大量的详细标注数据，而少样本TAL通过仅使用少量训练样本来识别未见的动作类别，从而减少了对大数据的依赖。然而，现有的少样本TAL方法通常仅专注于视频级信息，忽视了文本信息所带来的有价值语义支持。因此，我们提出了一种新的基于链式推理的少样本时序动作定位方法，以提高定位性能。具体而言，我们设计了一种新颖的少样本学习框架，利用文本语义信息来增强模型捕捉动作共性和变异的能力，包括用于在不同级别对查询视频和支持视频进行对齐的语义感知文本-视觉对齐模块。同时，为了在文本级别更好地表达动作之间的时序依赖性和因果关系，以辅助动作定位，我们设计了一种类似于链式推理（CoT）的方法，逐步引导视觉语言模型（VLM）和大型语言模型（LLM）生成类似于CoT的文字描述，这些生成的文字比视觉特征更能捕捉动作的变化性。我们在公开的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们引入了第一个名为Human-related Anomaly Localization的数据集，并探讨了时序动作定位任务在人类异常检测中的应用。实验结果表明，我们提出的方法在单实例和多实例场景中显著优于现有方法。我们将会发布我们的代码、数据和基准。