LLM2D

摘要

基于文本的图像生成模型，例如 Stable Diffusion 和 DALL-E 3，在内容创作和出版工作流程中具有巨大潜力，使其成为近年来关注的焦点。尽管它们在生成多样化和生动的图像方面具有非凡的能力，但人们仍在努力防止生成有害内容，例如辱骂性、暴力或色情内容。为了评估现有模型的安全性，我们引入了一种名为“连锁越狱”(CoJ) 攻击的新型越狱方法，该方法通过逐步编辑过程来破坏图像生成模型。具体来说，对于无法通过单个提示绕过安全措施的恶意查询，我们有意将查询分解成多个子查询。然后提示图像生成模型根据这些子查询生成并迭代地编辑图像。为了评估我们的 CoJ 攻击方法的有效性，我们构建了一个全面的数据集 CoJ-Bench，涵盖九种安全场景、三种类型的编辑操作和三种编辑元素。对 GPT-4V、GPT-4o、Gemini 1.5 和 Gemini 1.5 Pro 提供的四种广泛使用的图像生成服务的实验表明，我们的 CoJ 攻击方法可以在超过 60% 的情况下成功绕过模型的安全措施，这明显优于其他越狱方法（即 14%）。此外，为了增强这些模型对我们 CoJ 攻击方法的安全性，我们还提出了一种有效的基于提示的方法，即“三思而后行提示”，它可以成功防御超过 95% 的 CoJ 攻击。我们发布了我们的数据集和代码，以促进人工智能安全研究。