LLM2D

摘要

大规模预训练生成模型凭借其生成创意内容的能力席卷全球。与此同时，为了保护用户的权利和安全，人们正在为这些生成模型开发安全保障措施，其中大多数是为大型语言模型设计的。现有方法主要集中在越狱和对抗攻击方面，这些方法主要评估模型在恶意提示下的安全性。最近的研究发现，人工编制的安全提示可能会无意中触发不安全的生成。为了更系统地评估文本到图像模型的安全风险，我们提出了一种新颖的自动红队框架 ART。我们的方法利用视觉语言模型和大型语言模型，在不安全的生成及其提示之间建立联系，从而更有效地识别模型的漏洞。通过我们全面的实验，我们揭示了流行的开源文本到图像模型的毒性。实验还验证了 ART 的有效性、适应性和多样性。此外，我们还引入了三个大型红队数据集，用于研究与文本到图像模型相关的安全风险。数据集和模型可以在 https://github.com/GuanlinLee/ART 中找到。