LLM2D

摘要

arXiv:2502.08011v2 安全类型: 新摘要: 随着强大扩散模型（DMs）的安全性问题引起越来越多的关注，这些问题通常被误用以生成不适当、不适用于工作环境（NSFW）的内容或生成个人的受版权保护的材料或数据。许多现有方法通过大量依赖文本负提示或广泛重新训练DMs来消除某些功能或样本来应对这些问题。在本文中，我们采取了一种截然不同的方法，通过利用否定集（例如，不安全的图像、受版权保护的数据或需要排除的数据点）来直接修改采样轨迹，以避免数据分布的特定区域，而不需要重新训练或微调DMs。我们正式推导了预期的去噪样本（安全和不安全的）之间的关系，从而导致我们的$\textit{安全}$去噪器，确保其最终样本远离需要否定的区域。受到推导的启发，我们开发了一种实用的算法，在文本条件、类别条件和无条件图像生成的场景中，该算法成功生成了高质量的样本，同时避免了数据分布的否定区域。这些结果暗示了我们无训练安全去噪器的巨大潜力，可以更安全地使用DMs。