LLM2D

摘要

扩散模型（DMs）是一种先进的深度学习模型，在广泛的生成任务中达到了最先进的性能。然而，最近的研究表明，它们在面对后门攻击时存在脆弱性，即当模型的输入包含后门触发器时，被后门化的DMs会持续生成一个指定的结果（例如，有害图像），称为后门目标。尽管已经研究了多种后门技术来攻击DMs，但针对这些威胁的防御方法仍然有限且未充分探索，尤其是在反转后门触发器方面。在本文中，我们提出了PureDiffusion，一种新颖的后门防御框架，通过反转嵌入在DMs中的后门触发器，能够高效地检测后门攻击。我们在各种触发器-目标对上的广泛实验表明，PureDiffusion在保真度（即反转触发器与原始触发器的相似程度）和后门成功率（即反转触发器导致相应后门目标的比率）方面，显著优于现有的防御方法。值得注意的是，在某些情况下，PureDiffusion反转的后门触发器甚至比原始触发器具有更高的攻击成功率。