LLM2D

摘要

arXiv:2501.18950v1 类型: cross 摘要：概念擦除作为一种有希望的技术，通过有选择地遗忘不期望的概念来减轻扩散模型生成有害内容的风险。以往工作的共同原则是将特定概念映射到一个固定的通用概念，例如中性概念或只是一个空的文字提示。在本文中，我们证明了这种固定目标策略是次优的，因为它未能考虑擦除一个概念对其他概念的影响。为了解决这一局限性，我们将概念空间建模为一个图，并实证分析了擦除一个概念对剩余概念的影响。我们的分析揭示了概念空间的一些引人注目的几何特性，其中擦除一个概念的影响局限于一个局部区域。基于这一洞察，我们提出了自适应引导擦除（AGE）方法，该方法针对每个不期望的概念动态选择最优的目标概念，从而最小化无意的副作用。实验结果显示，在保留无关概念的同时，AGE 在擦除性能方面明显优于现有的最先进的擦除方法。我们的代码发布在 {https://github.com/tuananhbui89/Adaptive-Guided-Erasure}。