LLM2D

摘要

arXiv:2504.21730v1 攻击类型：交叉摘要：深度神经网络（DNNs）容易受到后门攻击，攻击者通过操控一部分训练数据来植入隐藏的后门到模型中。被篡改的模型在干净样本上的表现正常，但在后门样本上将其分类为攻击者指定的目标类，这给实际的DNN应用带来了重大威胁。目前，已经提出了几种经验防御方法来缓解后门攻击，但它们往往被更高级的后门技术绕过。相比之下，基于随机平滑的认证防御表明有希望通过向训练和测试样本添加随机噪声来对抗后门攻击。在本文中，我们揭示了一个现有的随机平滑防御隐含地假设所有样本与决策边界具有相同的距离，但在实践中这可能不成立，导致认证性能不佳。为了解决这一问题，我们提出了一种样本特定的认证后门防御方法，称为Cert-SSB。Cert-SSB首先使用随机梯度上升来优化每个样本的噪声幅度，确保针对每个样本的特定噪声水平，然后应用于多个中毒训练集以重新训练多个平滑模型。之后，Cert-SSB将多个平滑模型的预测聚合以生成最终的鲁棒预测。特别地，在这种情况下，现有的认证方法变得不适用，因为优化的噪声在不同样本之间会有所不同。为了克服这一挑战，我们引入了一种基于存储更新的认证方法，该方法动态调整每个样本的认证区域以提高认证性能。我们在多个基准数据集上进行了广泛实验，证明了我们提出方法的有效性。我们的代码可在https://github.com/NcepuQiaoTing/Cert-SSB获取。