LLM2D

摘要

本文探讨了 TRADES，一种著名的对抗训练方法中，概率鲁棒性高估的现象。我们的研究表明，在多类分类任务中，TRADES 有时会产生与 AutoAttack 测试精度相比过高比例的 PGD 验证精度。这种差异突出了这些实例的鲁棒性被显著高估，这可能与梯度掩蔽有关。我们进一步分析了导致模型不稳定并导致高估的参数。我们的发现表明，较小的批次大小、较低的 beta 值（控制 TRADES 中鲁棒损失项的权重）、较高的学习率以及更高的类别复杂度（例如，CIFAR-100 与 CIFAR-10）与鲁棒性高估的可能性增加相关。通过检查诸如一阶稳定条件 (FOSC)、内部最大化和梯度信息等指标，我们确定了这种现象的根本原因是梯度掩蔽，并对其进行了深入分析。此外，我们的实验表明，某些不稳定的训练实例可能会恢复到没有鲁棒性高估的状态，激发了我们寻求解决方案的尝试。除了调整参数设置以减少不稳定性或在发生高估时重新训练之外，我们建议在 FOSC 分数超过阈值时，在输入中加入高斯噪声。这种方法旨在从源头上缓解 TRADES 及其他类似方法的鲁棒性高估，确保在评估期间对对抗鲁棒性进行更可靠的表示。