LLM2D
逐步编辑式图像生成模型的“越狱”攻击链
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
作者: Wenxuan Wang, Kuiyi Gao, Zihan Jia, Youliang Yuan, Jen-tse Huang, Qiuzhi Liu, Shuai Wang, Wenxiang Jiao, Zhaopeng Tu
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03869v1

摘要

基于文本的图像生成模型,例如 Stable Diffusion 和 DALL-E 3,在内容创作和出版工作流程中具有巨大潜力,使其成为近年来关注的焦点。尽管它们在生成多样化和生动的图像方面具有非凡的能力,但人们仍在努力防止生成有害内容,例如辱骂性、暴力或色情内容。为了评估现有模型的安全性,我们引入了一种名为“连锁越狱”(CoJ) 攻击的新型越狱方法,该方法通过逐步编辑过程来破坏图像生成模型。具体来说,对于无法通过单个提示绕过安全措施的恶意查询,我们有意将查询分解成多个子查询。然后提示图像生成模型根据这些子查询生成并迭代地编辑图像。为了评估我们的 CoJ 攻击方法的有效性,我们构建了一个全面的数据集 CoJ-Bench,涵盖九种安全场景、三种类型的编辑操作和三种编辑元素。对 GPT-4V、GPT-4o、Gemini 1.5 和 Gemini 1.5 Pro 提供的四种广泛使用的图像生成服务的实验表明,我们的 CoJ 攻击方法可以在超过 60% 的情况下成功绕过模型的安全措施,这明显优于其他越狱方法(即 14%)。此外,为了增强这些模型对我们 CoJ 攻击方法的安全性,我们还提出了一种有效的基于提示的方法,即“三思而后行提示”,它可以成功防御超过 95% 的 CoJ 攻击。我们发布了我们的数据集和代码,以促进人工智能安全研究。