摘要
本文探讨了 TRADES,一种著名的对抗训练方法中,概率鲁棒性高估的现象。我们的研究表明,在多类分类任务中,TRADES 有时会产生与 AutoAttack 测试精度相比过高比例的 PGD 验证精度。这种差异突出了这些实例的鲁棒性被显著高估,这可能与梯度掩蔽有关。我们进一步分析了导致模型不稳定并导致高估的参数。我们的发现表明,较小的批次大小、较低的 beta 值(控制 TRADES 中鲁棒损失项的权重)、较高的学习率以及更高的类别复杂度(例如,CIFAR-100 与 CIFAR-10)与鲁棒性高估的可能性增加相关。通过检查诸如一阶稳定条件 (FOSC)、内部最大化和梯度信息等指标,我们确定了这种现象的根本原因是梯度掩蔽,并对其进行了深入分析。此外,我们的实验表明,某些不稳定的训练实例可能会恢复到没有鲁棒性高估的状态,激发了我们寻求解决方案的尝试。除了调整参数设置以减少不稳定性或在发生高估时重新训练之外,我们建议在 FOSC 分数超过阈值时,在输入中加入高斯噪声。这种方法旨在从源头上缓解 TRADES 及其他类似方法的鲁棒性高估,确保在评估期间对对抗鲁棒性进行更可靠的表示。