LLM2D
融合集成攻击内的连贯性和跨差异性以提高对抗转移性
Harmonizing Intra-coherence and Inter-divergence in Ensemble Attacks for Adversarial Transferability
作者: Zhaoyang Ma, Zhihao Wu, Wang Lu, Xin Gao, Jinghang Yue, Taolin Zhang, Lipo Wang, Youfang Lin, Jing Wang
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.01168v1

摘要

arXiv:2505.01168v1 威胁类型:跨平台 摘要:模型ensemble攻击的发展显著提高了对抗样本的转移性,但这种进步也对深度神经网络的安全性造成了严重威胁。现有方法面临着两个关键挑战:无法充分捕捉模型间共享的梯度方向以及缺乏适应性的权重分配机制。为了解决这些问题,我们提出了一种名为Harmonized Ensemble for Adversarial Transferability (HEAT)的新型方法,这是首次将领域泛化引入对抗样本生成。HEAT包括两个关键模块:共识梯度方向合成器,使用奇异值分解来合成共享的梯度方向;以及双和声权重调度器,该模块动态平衡领域内的一致性,稳定单个模型内的梯度,以及领域间的多样性,增强模型间的转移性。实验结果表明,HEAT在各种数据集和设置下显著优于现有方法,为对抗攻击研究提供了新的视角和方向。