LLM2D
利用大型语言模型攻击大型语言模型保护的文本到图像模型
Harnessing LLM to Attack LLM-Guarded Text-to-Image Models
作者: Yimo Deng, Huangxun Chen
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2312.07130v4

摘要

为防止文本到图像 (T2I) 模型生成不道德的图像,人们部署了安全过滤器来阻止不合适的绘图提示。先前的工作采用令牌替换来搜索试图绕过这些过滤器的对抗性提示,但由于无意义的令牌未能通过语义逻辑检查,这些方法已变得无效。在本文中,我们从不同的角度来看待对抗性提示。我们证明,将绘画意图改述为多个良性描述的单个视觉组件可以获得有效的对抗性提示。我们提出了一种名为 DACA 的由大型语言模型 (LLM) 驱动的多智能体方法来自动完成预期的改述。我们的方法成功绕过了 DALL-E 3 和 Midjourney 的安全过滤器,生成了预期的图像,一次性攻击的成功率分别高达 76.7% 和 64%,重复攻击的成功率分别高达 98% 和 84%。我们已将我们的代码和数据集开源至 [此链接](https://github.com/researchcode003/DACA)。