摘要
深度学习模型容易受到后门攻击,攻击者在训练过程中注入恶意功能,该功能在推理时会在触发输入上激活。大量的研究集中在开发隐蔽的后门攻击以规避检测和防御机制。然而,这些方法仍然存在局限性,由于其固有的在触发器存在时导致恶意行为的设计,使得检测和缓解成为可能。为了解决这一局限性,我们引入了延迟激活后门功能 (DABF),这是一种新的后门攻击范式。与传统攻击不同,DABF 最初隐藏其后门,即使触发也能产生良性输出。这种隐蔽的行为允许 DABF 绕过多种检测和防御方法,在初步检查中保持未被检测到。后门功能仅在模型经过后续更新(例如对良性数据进行再训练)后才被战略性地激活。DABF 攻击利用机器学习模型生命周期中常见的做法,即在初始部署后执行模型更新和微调。为了实施 DABF 攻击,我们通过使后门的遗忘变得脆弱来解决这个问题,使其易于取消并随后重新激活后门功能。为了实现这一点,我们提出了一种新颖的两阶段训练方案,称为 DeferBad。我们在各种微调场景、后门攻击类型、数据集和模型架构上的大量实验证明了 DeferBad 的有效性和隐蔽性。