摘要
arXiv:2504.18563v1 安全类型: 交叉
摘要: 文本到图像的扩散模型越来越容易受到后门攻击的影响,在这种攻击中,恶意修改训练数据会使模型在特定触发器存在时生成未预期的输出。尽管分类模型已经开发出了大量防御机制,但由于生成模型具有高维输出空间,使得检测和减轻微妙扰动变得更加复杂,这些模型仍然主要未受到保护。尤其是针对扩散模型的防御策略仍处于探索阶段。在本工作中,我们提出了空间注意力去学习(Spatial Attention Unlearning, SAU),这是一种用于缓解扩散模型后门攻击的新型技术。SAU 利用潜在空间操控和空间注意力机制来隔离并移除后门触发器的潜在表示,确保精确和高效的恶意效果移除。我们在各种类型的后门攻击中评估了 SAU,包括像素级和样式级触发器,并展示了其在实现 100% 触发器移除准确率方面的有效性。此外,SAU 达到了 0.7023 的 CLIP 分数,优于现有方法,同时保持了生成高质量、语义对齐图像的能力。我们的结果显示,SAU 是一种稳健、可扩展且实用的解决方案,可用于保护文本到图像的扩散模型免受后门攻击。