摘要
arXiv:2504.14921v2 通知类型: 替换交叉
摘要:对抗训练(AT)已被证明通过最小-最大优化方法显著增强了对抗鲁棒性。然而,在视频识别任务中的有效性受到了两个主要挑战的阻碍。首先,对于视频模型的快速对抗训练尚未进行充分探索,这严重阻碍了其实用应用。具体来说,大多数视频对抗训练方法在计算上成本高昂,导致训练时间长且费用高。其次,现有方法在干净准确性和对抗鲁棒性之间难以平衡。为了解决这些挑战,我们引入了基于弱到强一致性的视频快速对抗训练(VFAT-WS),这是首个针对视频数据的快速对抗训练方法。具体来说,VFAT-WS 包含以下关键设计:首先,它整合了一种简单而有效的时域频率增强(TF-AUG)及其空间-时间增强形式 STF-AUG,并与单步 PGD 攻击结合使用,以提高训练效率和鲁棒性。其次,它设计了一种从弱到强的空间-时间一致性正则化,无缝整合了更简单的 TF-AUG 和更复杂的 STF-AUG。通过利用一致性正则化,它引导学习过程从简单的增强到复杂的增强。两者结合在一起,实现了在干净准确性和鲁棒性之间的更好平衡。在 UCF-101 和 HMDB-51 数据集上的实验,包括卷积神经网络(CNN)和基于变换器的模型,表明 VFAT-WS 在对抗鲁棒性和抗毁性方面取得了显著改善,同时将训练加速近 490%。