摘要
arXiv:2504.05956v1 宣告类型: cross
摘要: 少样本动作识别(FSAR)旨在仅使用少量标记的视频实例来训练模型。FSAR 的关键挑战是在精确的视频匹配中处理动作的离散叙事轨迹。尽管帧级和元组级别的对齐方法很有前景,但它们的方法严重依赖于预定义且长度相关的对齐单元(例如帧或元组),这限制了对于不同长度和速度的动作的灵活性。在本文中,我们提出了一种新颖的TEmporal Alignment-free Matching(TEAM)方法,该方法消除了在动作表示和匹配过程中对时间单元的需求以及 brute-force 对齐。具体来说,TEAM 以固定集的模式令牌来表示每个视频,这些令牌捕获视频实例中的全局可区分线索,而不考虑动作的长度或速度,从而确保其灵活性。此外,TEAM 本身是高效的,通过令牌间的比较来度量视频之间的相似性,而非现有的方法依赖于基于时间对齐的成对比较。此外,我们提出了一种适应过程,以识别并去除不同类别之间的共同信息,即使在新颖类别之间也能明确划分边界。广泛的实验表明了TEAM的有效性。代码可在github.com/leesb7426/TEAM获取。