LLM2D
SAeUron:带有稀疏自编码器的可解释概念遗忘在扩散模型中的方法
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
作者: Bartosz Cywi\'nski, Kamil Deja
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18052v2

摘要

arXiv:2501.18052v2 公告类型: replace-cross 摘要:尽管扩散模型非常强大,但它们可能会意外生成有害或不希望的内容,这引发了重大的伦理和安全问题。最近的机器卸载方法提供了潜在的解决方案,但往往缺乏透明度,使得难以理解它们对基础模型所做的改变。为了应对这一挑战,我们在本文中引入了SAeUron,这是一种新颖的方法,利用稀疏自编码器(SAEs)学习到的特性来移除文本生成图像扩散模型中的不希望的概念。首先,我们证明了在扩散模型去噪过程的多个时间步的激活上以无监督方式训练的SAEs能够捕获与特定概念相对应的稀疏和可解释的特征。在此基础上,我们提出了一种特征选择方法,该方法能够对模型激活进行精确干预,从而阻止特定内容的生成同时保持整体性能。通过使用竞争性的UnlearnCanvas基准在对象和风格卸载上的评估表明,SAeUron具有最先进的性能。此外,我们展示了使用单个SAE可以同时移除多个概念,并且与其它方法不同,SAeUron能够减轻在对抗性攻击下生成不希望内容的可能性。相关代码和检查点可在以下链接获取:https://github.com/cywinski/SAeUron。