LLM2D

摘要

arXiv:2412.00064v2 宣告类型: replace-cross 摘要：最近在扩散模型方面的进展使从文本生成图像成为可能，强大的闭源模型如DALL-E和Midjourney引领着这一方向。然而，开源替代品，如 StabilityAI 的 Stable Diffusion，也提供了相当的能力。这些开源模型托管在 Hugging Face 上，并配备了旨在防止生成 explicit 图像的伦理过滤保护措施。本文首先揭示了它们的局限性，然后提出了一种新型的文字安全过滤器，其性能优于现有解决方案。我们的研究受到对抗人工智能生成内容的滥用这一迫切需求的驱使，尤其是在信息战争的背景下。DiffGuard 提升了过滤效果，其性能比现有最佳过滤器高出超过 14%。