LLM2D

摘要

arXiv:2411.10329v2 公告类型: replace-cross 摘要: 近年来，文本到图像（T2I）生成模型在生成高质量且符合文本描述的图像方面取得了显著进展。然而，这些模型也面临着不安全生成的风险，可能会产生违反使用政策的内容，例如明确的材料。现有的安全生成方法通常专注于通过消除视觉表示中的不必要概念来抑制不适当的内容，而忽视了净化文本表示。尽管这些方法在一定程度上减轻了滥用的风险，但它们在应对对抗攻击时的鲁棒性仍然不够。鉴于输入文本与输出图像之间的语义一致性是T2I模型的核心要求，我们发现文本表示可能是不安全生成的主要来源。为此，我们提出了嵌入净化器（ES），它通过净化提示嵌入中的不适当概念来增强T2I模型的安全性。据我们所知，ES 是第一个可解释的安全生成框架，它为每个提示词分配一个分数，以指示其潜在的有害性。此外，ES 采用了即插即用模块化设计，提供了与其他T2I模型和其它防护措施无缝集成的兼容性。在五个提示基准上的评估显示，ES 在鲁棒性方面明显优于现有的十一种防护基线，同时保持了高质量的图像生成。