LLM2D

摘要

文本到图像（T2I）扩散模型因其生成高质量图像并实现精确文本对齐的能力而备受关注。然而，这些模型也可能被滥用于生成不适当的内容。现有的安全措施通常依赖于文本分类器或类似 ControlNet 的方法，往往不足。传统的文本分类器依赖于大规模标记数据集，并且很容易被重新措辞绕过。随着扩散模型的不断扩展，微调这些安全措施变得越来越具有挑战性，并且缺乏灵活性。最近的红队攻击研究进一步强调了需要一种新的范式来防止生成不适当内容。在本文中，我们介绍了 SteerDiff，这是一个轻量级适配器模块，旨在充当用户输入和扩散模型之间的中介，确保生成的图像符合道德和安全标准，对可用性几乎没有影响。SteerDiff 在文本嵌入空间中识别和操纵不适当的概念，以引导模型远离有害输出。我们针对各种概念遗忘任务进行了广泛的实验，以评估我们方法的有效性。此外，我们针对多个红队攻击策略对 SteerDiff 进行了基准测试，以评估其稳健性。最后，我们探索了 SteerDiff 在概念遗忘任务中的潜力，展示了其在文本条件图像生成方面的多功能性。