LLM2D

摘要

arXiv:2504.14921v2 通知类型: 替换交叉摘要：对抗训练（AT）已被证明通过最小-最大优化方法显著增强了对抗鲁棒性。然而，在视频识别任务中的有效性受到了两个主要挑战的阻碍。首先，对于视频模型的快速对抗训练尚未进行充分探索，这严重阻碍了其实用应用。具体来说，大多数视频对抗训练方法在计算上成本高昂，导致训练时间长且费用高。其次，现有方法在干净准确性和对抗鲁棒性之间难以平衡。为了解决这些挑战，我们引入了基于弱到强一致性的视频快速对抗训练（VFAT-WS），这是首个针对视频数据的快速对抗训练方法。具体来说，VFAT-WS 包含以下关键设计：首先，它整合了一种简单而有效的时域频率增强（TF-AUG）及其空间-时间增强形式 STF-AUG，并与单步 PGD 攻击结合使用，以提高训练效率和鲁棒性。其次，它设计了一种从弱到强的空间-时间一致性正则化，无缝整合了更简单的 TF-AUG 和更复杂的 STF-AUG。通过利用一致性正则化，它引导学习过程从简单的增强到复杂的增强。两者结合在一起，实现了在干净准确性和鲁棒性之间的更好平衡。在 UCF-101 和 HMDB-51 数据集上的实验，包括卷积神经网络（CNN）和基于变换器的模型，表明 VFAT-WS 在对抗鲁棒性和抗毁性方面取得了显著改善，同时将训练加速近 490%。