LLM2D

摘要

对抗训练是通过直接在训练过程中加入对抗样本，来获得深度神经网络对抗鲁棒性的最有效方法。为了获得准确且鲁棒的模型，加权平均法被用来同时优化标准损失和对抗损失。本文认为，加权平均法并没有为标准性能和对抗鲁棒性提供最佳的权衡。我们认为，加权平均法的失败是由于标准损失和对抗损失导出的梯度之间存在冲突，并进一步从理论和实践上证明了这种冲突会随着攻击预算的增加而加剧。为了缓解这个问题，我们提出了一种新的对抗训练权衡范式，该范式针对标准损失和对抗损失的凸组合使用了一个冲突感知因子，命名为**冲突感知对抗训练 (CA-AT)**。全面的实验结果表明，在从零开始的对抗训练和参数高效微调的设置下，CA-AT始终在标准性能和对抗鲁棒性之间提供了更好的权衡。