摘要
arXiv:2502.14896v1 类别: cross
摘要: 文本到图像(T2I)模型在从自然语言提示生成高质量、多样化的视觉内容方面取得了显著进展。然而,它们再现受版权保护的风格、敏感图像和有害内容的能力引发了严重的伦理和法律关切。概念擦除提供了对外部过滤的主动替代方案,通过修改T2I模型以防止生成不希望的内容。在这篇综述中,我们提供了概念擦除的结构化概览,根据其优化策略和修改的架构组件对现有方法进行了分类。我们将概念擦除方法分为参数更新的微调法、高效的封闭形式解法以及内容限制的推理时干预法,而无需修改权重。此外,我们探讨了规避擦除技术的对抗攻击,并讨论了新兴的防御措施。为了支持进一步的研究,我们汇集了关键的数据集、评估指标和基准,用于评估擦除效果和模型稳健性。这篇综述作为一种综合资源,提供了概念擦除不断演变的景观、挑战及未来方向的见解。