摘要
arXiv:2504.12782v1 宣告类型: cross
摘要: 确保文本到图像模型的道德部署需要有效的技术来防止生成有害或不合适的内容。虽然概念擦除方法提供了一种有前景的解决方案,但现有的微调方法面临显著的局限性。无锚点方法可能会破坏采样轨迹,导致视觉伪影,而带有锚点的方法则依赖于启发式选择锚点概念。为克服这些不足,我们引入了一种名为ANT的微调框架,该框架自动引导去噪轨迹以避免不希望的概念。ANT建立在一个关键洞察之上:在中后期去噪阶段反向转换分类器自由引导的条件方向,能够在不牺牲早期阶段结构完整性的前提下实现精确内容修改。这启发了一个轨迹意识的目标,该目标保持了早期阶段评分函数场的完整性,从而引导样本向自然图像流形进发,而无需依赖启发式锚点概念选择。对于单概念擦除,我们提出了增强化扩增的权重显著性图,以精确识别最显著贡献于不希望概念的关键参数,从而实现更加彻底和高效的擦除。对于多概念擦除,我们的目标函数提供了一个多功能即插即用的解决方案,显著提升了性能。大量实验表明,ANT在单概念和多概念擦除中均取得了最先进的结果,提供了高质量、安全的输出,而不损害生成保真度。代码可在 https://github.com/lileyang1210/ANT 获取。