LLM2D
PromptGuard:软提示引导的内容审核模型用于文本生成图像任务中的有害内容 moderatio
PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models
作者: Lingzhi Yuan, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2501.03544v2

摘要

arXiv:2501.03544v2 安全类型:替换交叉 摘要:文本到图像(T2I)模型已被证明容易被误用,特别是在生成不适合工作场所(NSFW)内容方面,引发了严重的伦理问题。在这项工作中,我们提出了一种名为PromptGuard的新颖内容审核技术,该技术受到了大型语言模型(LLMs)系统提示机制的启发,以实现安全性对齐。与LLMs不同,T2I模型缺乏直接接口来强制执行行为指南。我们的核心思想是优化一个安全软提示(P*),该提示作为T2I模型文本嵌入空间中的隐式系统提示。这个通用软提示直接处理NSFW输入,使得在不改变推理效率或不需要代理模型的情况下,能够生成安全且高质量的图像。在三个数据集上的广泛实验表明,PromptGuard有效地减轻了NSFW内容的生成,同时保持了高质量的良性输出。PromptGuard比以前的内容审核方法快7.8倍,并且以3.84%的最优不安全比率超过了八种最先进的防御措施。