LLM2D

摘要

arXiv:2504.14860v1 类型: cross 摘要：弱监督时空动作定位（WTAL）已经取得了显著的成功，但仍受到时间注释不足的影响，导致其与完全监督方法在性能和框架上有差距。尽管最近的方法使用了伪标签进行训练，但三个关键挑战仍然没有解决：生成高质量的伪标签、充分利用不同的先验知识以及优化带噪声标签的训练方法。鉴于这些角度，我们提出了一种名为 PseudoFormer 的新型双分支框架，以填补弱监督和完全监督时空动作定位（TAL）之间的差距。我们首先引入了 RickerFusion，它将所有预测的动作提案映射到一个全局共享空间，以生成质量更好的伪标签。随后，我们在弱分支的片段级和提案级标签以及不同的先验知识的帮助下，利用回归模型进行训练。最后，我们使用不确定性掩码和迭代精炼机制对含噪声伪标签的训练进行训练。PseudoFormer 在两个常用的基准数据集 THUMOS14 和 ActivityNet1.3 上取得了最先进的 WTAL 结果。此外，广泛的消融研究还展示了我们方法中每个组件的贡献。