摘要
arXiv:2502.08011v2 安全类型: 新
摘要: 随着强大扩散模型(DMs)的安全性问题引起越来越多的关注,这些问题通常被误用以生成不适当、不适用于工作环境(NSFW)的内容或生成个人的受版权保护的材料或数据。许多现有方法通过大量依赖文本负提示或广泛重新训练DMs来消除某些功能或样本来应对这些问题。在本文中,我们采取了一种截然不同的方法,通过利用否定集(例如,不安全的图像、受版权保护的数据或需要排除的数据点)来直接修改采样轨迹,以避免数据分布的特定区域,而不需要重新训练或微调DMs。我们正式推导了预期的去噪样本(安全和不安全的)之间的关系,从而导致我们的$\textit{安全}$去噪器,确保其最终样本远离需要否定的区域。受到推导的启发,我们开发了一种实用的算法,在文本条件、类别条件和无条件图像生成的场景中,该算法成功生成了高质量的样本,同时避免了数据分布的否定区域。这些结果暗示了我们无训练安全去噪器的巨大潜力,可以更安全地使用DMs。