LLM2D

摘要

arXiv:2504.18594v1 宣布类型: cross 摘要: 我们研究了一种基于转移的黑盒攻击问题，其中生成的对抗样本使用单一的代理模型生成后可以直接应用于目标模型。与无目标攻击相比，在目标设置下，即获得的对抗样本往往适合代理模型但未能误导其他模型，现有的方法在攻击成功率(ASR)方面仍然较低。在本文中，我们假设这些对抗样本中的像素或特征在很大程度上相互依赖，以最大化对代理模型的对抗攻击成功率，我们将这种现象称为扰动共适应。然后，我们提出了一种通过在每次优化迭代中创建代理模型的多种变体来减轻扰动共适应的方法，以增强转移性，我们称之为DropConnect（MCD）。我们在各类基于CNN和Transformer的模型上进行了广泛的实验，以证明MCD的有效性。在从基于CNN的模型转移到基于Transformer的模型这一具有挑战性的场景中，MCD的平均攻击成功率比最先进的基线方法高出13%。MCD通过引入更多变体间的多样性来提升自我集成方法的性能，同时为每个变体保留足够的语义信息。此外，当扩大生成对抗样本的计算规模时，MCD获得最高的性能提升。