LLM2D

摘要

对抗训练在防御对抗攻击方面取得了显著进展。其中，快速对抗训练 (FAT) 因其能够以更少的计算资源实现具有竞争力的鲁棒性而受到关注。现有的 FAT 方法通常采用统一策略，平等地优化所有训练数据，而没有考虑不同样本的影响，这导致了不平衡的优化。然而，这种不平衡在 FAT 领域尚未得到探索。在本文中，我们对 FAT 中的不平衡问题进行了全面研究，并观察到其性能方面存在明显的类别差异。这种差异可以从干净精度和鲁棒精度之间的一致性角度体现出来。基于分析，我们将观察到的错位和差异主要归因于 FAT 中的不平衡优化，这促使我们自适应地优化不同的训练数据以增强鲁棒性。具体来说，我们考虑了差异和错位。首先，我们引入了自知识引导正则化，根据每个类别的训练状态为其分配不同的正则化权重，从而减轻类别差异。此外，我们提出了自知识引导标签松弛，根据训练精度调整标签松弛，从而减轻错位并提高鲁棒性。通过结合这些方法，我们制定了自知识引导 FAT (SKG-FAT)，利用训练过程中自然生成的知识来增强对抗鲁棒性，而不会影响训练效率。在四个标准数据集上进行的大量实验表明，SKG-FAT 提高了鲁棒性并保持了具有竞争力的干净精度，优于最先进的方法。