LLM2D

摘要

arXiv:2504.05956v1 宣告类型: cross 摘要: 少样本动作识别（FSAR）旨在仅使用少量标记的视频实例来训练模型。FSAR 的关键挑战是在精确的视频匹配中处理动作的离散叙事轨迹。尽管帧级和元组级别的对齐方法很有前景，但它们的方法严重依赖于预定义且长度相关的对齐单元（例如帧或元组），这限制了对于不同长度和速度的动作的灵活性。在本文中，我们提出了一种新颖的TEmporal Alignment-free Matching（TEAM）方法，该方法消除了在动作表示和匹配过程中对时间单元的需求以及 brute-force 对齐。具体来说，TEAM 以固定集的模式令牌来表示每个视频，这些令牌捕获视频实例中的全局可区分线索，而不考虑动作的长度或速度，从而确保其灵活性。此外，TEAM 本身是高效的，通过令牌间的比较来度量视频之间的相似性，而非现有的方法依赖于基于时间对齐的成对比较。此外，我们提出了一种适应过程，以识别并去除不同类别之间的共同信息，即使在新颖类别之间也能明确划分边界。广泛的实验表明了TEAM的有效性。代码可在github.com/leesb7426/TEAM获取。