LLM2D

摘要

深度学习模型容易受到后门攻击，攻击者在训练过程中注入恶意功能，该功能在推理时会在触发输入上激活。大量的研究集中在开发隐蔽的后门攻击以规避检测和防御机制。然而，这些方法仍然存在局限性，由于其固有的在触发器存在时导致恶意行为的设计，使得检测和缓解成为可能。为了解决这一局限性，我们引入了延迟激活后门功能 (DABF)，这是一种新的后门攻击范式。与传统攻击不同，DABF 最初隐藏其后门，即使触发也能产生良性输出。这种隐蔽的行为允许 DABF 绕过多种检测和防御方法，在初步检查中保持未被检测到。后门功能仅在模型经过后续更新（例如对良性数据进行再训练）后才被战略性地激活。DABF 攻击利用机器学习模型生命周期中常见的做法，即在初始部署后执行模型更新和微调。为了实施 DABF 攻击，我们通过使后门的遗忘变得脆弱来解决这个问题，使其易于取消并随后重新激活后门功能。为了实现这一点，我们提出了一种新颖的两阶段训练方案，称为 DeferBad。我们在各种微调场景、后门攻击类型、数据集和模型架构上的大量实验证明了 DeferBad 的有效性和隐蔽性。