摘要
arXiv:2502.07408v1 宣告类型:交叉
摘要:只需翻转深度神经网络(DNNs)中少量参数的符号位,即可导致其灾难性破坏。我们提出了一种数据免费、轻量级的方法 Deep Neural Lesion(DNL),这种方法能够定位这些关键参数并触发巨大的准确率下降。我们在多种计算机视觉模型和数据集上验证了其有效性。该方法不需要任何训练数据或优化,并可以通过基于软件、固件或硬件的常见攻击向量来实现。一种增强版本通过单次前向和反向传播进一步扩大了DNL零次方法的破坏程度。在ImageNet上翻转ResNet50中仅仅两个符号位,准确率会降低99.8%。我们还展示了有选择性地保护一小部分易受攻击的符号位可以为这类攻击提供实际的防御手段。