LLM2D

摘要

arXiv:2504.14921v1 宣告类型：交叉摘要：对抗训练（AT）已被证明通过最小-最大优化方法显著增强了对抗鲁棒性。然而，在视频识别任务中的有效性受到两大主要挑战的阻碍。首先，快速视频模型的对抗训练尚未得到充分探索，这严重妨碍了其实际应用。具体而言，大多数视频对抗训练方法在计算成本上都很高，训练时间长且费用高。其次，现有方法难以在干净准确性和对抗鲁棒性之间取得平衡。为了解决这些挑战，我们引入了“Video Fast Adversarial Training with Weak-to-Strong consistency”（VFAT-WS），这是第一个针对视频数据的快速对抗训练方法。具体而言，VFAT-WS 包含以下关键设计：首先，它结合了简单而有效的时空频率增强（TF-AUG）及其时空增强形式 STF-AUG，并结合了一步PGD攻击，以提高训练效率和鲁棒性。其次，它设计了一种从弱到强的时空一致性正则化，该正则化无缝地整合了简单的TF-AUG和更为复杂的STF-AUG。通过使用一致性正则化，它引导学习过程从简单的增强转向复杂的增强。两者共同作用，以在干净准确性和鲁棒性之间达成更好的平衡。在UCF-101和HMDB-51数据集上，结合CNN和Transformer模型的广泛实验表明，VFAT-WS 在对抗鲁棒性和抗噪声鲁棒性方面取得了显著改进，同时将训练速度提高了近490%。