摘要
arXiv:2504.14921v1 宣告类型:交叉
摘要:对抗训练(AT)已被证明通过最小-最大优化方法显著增强了对抗鲁棒性。然而,在视频识别任务中的有效性受到两大主要挑战的阻碍。首先,快速视频模型的对抗训练尚未得到充分探索,这严重妨碍了其实际应用。具体而言,大多数视频对抗训练方法在计算成本上都很高,训练时间长且费用高。其次,现有方法难以在干净准确性和对抗鲁棒性之间取得平衡。为了解决这些挑战,我们引入了“Video Fast Adversarial Training with Weak-to-Strong consistency”(VFAT-WS),这是第一个针对视频数据的快速对抗训练方法。具体而言,VFAT-WS 包含以下关键设计:首先,它结合了简单而有效的时空频率增强(TF-AUG)及其时空增强形式 STF-AUG,并结合了一步PGD攻击,以提高训练效率和鲁棒性。其次,它设计了一种从弱到强的时空一致性正则化,该正则化无缝地整合了简单的TF-AUG和更为复杂的STF-AUG。通过使用一致性正则化,它引导学习过程从简单的增强转向复杂的增强。两者共同作用,以在干净准确性和鲁棒性之间达成更好的平衡。在UCF-101和HMDB-51数据集上,结合CNN和Transformer模型的广泛实验表明,VFAT-WS 在对抗鲁棒性和抗噪声鲁棒性方面取得了显著改进,同时将训练速度提高了近490%。