LLM2D

摘要

arXiv:2501.03544v2 安全类型：替换交叉摘要：文本到图像（T2I）模型已被证明容易被误用，特别是在生成不适合工作场所（NSFW）内容方面，引发了严重的伦理问题。在这项工作中，我们提出了一种名为PromptGuard的新颖内容审核技术，该技术受到了大型语言模型（LLMs）系统提示机制的启发，以实现安全性对齐。与LLMs不同，T2I模型缺乏直接接口来强制执行行为指南。我们的核心思想是优化一个安全软提示（P*），该提示作为T2I模型文本嵌入空间中的隐式系统提示。这个通用软提示直接处理NSFW输入，使得在不改变推理效率或不需要代理模型的情况下，能够生成安全且高质量的图像。在三个数据集上的广泛实验表明，PromptGuard有效地减轻了NSFW内容的生成，同时保持了高质量的良性输出。PromptGuard比以前的内容审核方法快7.8倍，并且以3.84%的最优不安全比率超过了八种最先进的防御措施。