LLM2D

摘要

arXiv:2503.12356v2 Announce Type: replace-cross 摘要：基于微调的概念擦除已经在防止从文本到图像的扩散模型生成有害内容方面取得了有前途的结果，通过移除目标概念同时保留其余概念。为了在消除概念后保持扩散模型的生成能力，必须仅在图像中局部出现目标概念时移除包含该目标概念的图像区域，而使其他区域保持不变。然而，先前的技术往往以牺牲其他图像区域的保真度为代价，来消除特定区域中出现的局部目标概念，从而降低了图像生成的整体性能。为了解决这些限制，我们首先介绍了一种称为局部概念擦除的框架，该框架允许仅删除包含目标概念的特定区域，同时保留其他区域。作为局部概念擦除的解决方案，我们提出了一个无需训练的方法，称为门控低秩适应的概念擦除（GLoCE），将在扩散模型中注入一个轻量级模块。GLoCE 包含低秩矩阵和一个由少量生成步骤确定的简单门控机制，而无需训练。通过直接将GLoCE应用于图像嵌入，并设计门控机制仅在目标概念生成时激活，GLoCE 可以仅选择性地移除目标概念的区域，即使在图像中同时存在目标概念和剩余概念。广泛实验表明，GLoCE 不仅在擦除局部目标概念后提高了图像对文本提示的保真度，而且在有效性、特异性及鲁棒性方面也显著优于先前的技术，并且可以扩展到大规模概念擦除。