摘要
arXiv:2412.00064v2 宣告类型: replace-cross
摘要:最近在扩散模型方面的进展使从文本生成图像成为可能,强大的闭源模型如DALL-E和Midjourney引领着这一方向。然而,开源替代品,如 StabilityAI 的 Stable Diffusion,也提供了相当的能力。这些开源模型托管在 Hugging Face 上,并配备了旨在防止生成 explicit 图像的伦理过滤保护措施。本文首先揭示了它们的局限性,然后提出了一种新型的文字安全过滤器,其性能优于现有解决方案。我们的研究受到对抗人工智能生成内容的滥用这一迫切需求的驱使,尤其是在信息战争的背景下。DiffGuard 提升了过滤效果,其性能比现有最佳过滤器高出超过 14%。