LLM2D

摘要

arXiv:2503.01407v2 通告类型: replace-cross 摘要：现有的基于扩散的方法通过在前向扩散过程中引入一定量的噪声来破坏对抗性扰动，随后通过反向过程恢复干净的样例。然而，这种方法本质上是有缺陷的：前向过程在所有像素上的均匀操作会破坏正常像素，同时试图对抗对抗性扰动，导致目标模型产生错误预测。仅依赖低强度噪声不足以有效防御。为了解决这一关键问题，我们提出了一种基于神经网络可解释性的异质净化策略。我们的方法在目标模型关注的特定像素处应用高强度噪声，而其他像素仅受到低强度噪声的影响。这一要求促使我们重新设计扩散模型的采样过程，从而有效地去除变化的噪声级别。此外，为了评估我们的方法对强适应性攻击的防御能力，我们提出的这种方法通过单步重采样显著减少了时间和内存使用。广泛的三组数据集上的实验结果表明，我们的方法在对抗训练和净化技术中表现出明显的优越性。