摘要
扩散模型(DMs)是一种先进的深度学习模型,在广泛的生成任务中达到了最先进的性能。然而,最近的研究表明,它们在面对后门攻击时存在脆弱性,即当模型的输入包含后门触发器时,被后门化的DMs会持续生成一个指定的结果(例如,有害图像),称为后门目标。尽管已经研究了多种后门技术来攻击DMs,但针对这些威胁的防御方法仍然有限且未充分探索,尤其是在反转后门触发器方面。在本文中,我们提出了PureDiffusion,一种新颖的后门防御框架,通过反转嵌入在DMs中的后门触发器,能够高效地检测后门攻击。我们在各种触发器-目标对上的广泛实验表明,PureDiffusion在保真度(即反转触发器与原始触发器的相似程度)和后门成功率(即反转触发器导致相应后门目标的比率)方面,显著优于现有的防御方法。值得注意的是,在某些情况下,PureDiffusion反转的后门触发器甚至比原始触发器具有更高的攻击成功率。