LLM2D
ART:面向文本到图像模型的自动红队攻击,以保护良性用户
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users
作者: Guanlin Li, Kangjie Chen, Shudong Zhang, Jie Zhang, Tianwei Zhang
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2405.19360v3

摘要

大规模预训练生成模型凭借其生成创意内容的能力席卷全球。与此同时,为了保护用户的权利和安全,人们正在为这些生成模型开发安全保障措施,其中大多数是为大型语言模型设计的。现有方法主要集中在越狱和对抗攻击方面,这些方法主要评估模型在恶意提示下的安全性。最近的研究发现,人工编制的安全提示可能会无意中触发不安全的生成。为了更系统地评估文本到图像模型的安全风险,我们提出了一种新颖的自动红队框架 ART。我们的方法利用视觉语言模型和大型语言模型,在不安全的生成及其提示之间建立联系,从而更有效地识别模型的漏洞。通过我们全面的实验,我们揭示了流行的开源文本到图像模型的毒性。实验还验证了 ART 的有效性、适应性和多样性。此外,我们还引入了三个大型红队数据集,用于研究与文本到图像模型相关的安全风险。数据集和模型可以在 https://github.com/GuanlinLee/ART 中找到。