LLM2D

摘要

arXiv:2504.00038v1 宣告类型: cross 摘要：对抗训练（AT）是一种有效的方法，用于增强对抗鲁棒性，但通常会以牺牲泛化能力为代价。最近的研究试图利用干净的训练来辅助对抗训练，然而不同的结论之间存在矛盾。我们全面总结了代表性策略，并以多视角假说为重点，为不同研究中的矛盾现象提供了一个统一的解释。此外，我们深入分析了先前研究中干净训练模型向对抗训练模型转移的知识组合，并发现它们可以分为两类：降低学习难度和提供正确的指导。基于这一发现，我们提出了一种新的想法，即利用干净训练进一步提高高级AT方法的性能。我们揭示了对抗训练面临泛化能力下降部分原因是其在学习某些样本特征方面存在困难，而通过充分利用干净训练，这一问题可以得到缓解。