LLM2D
Reason2Attack: 通过LLM推理突破文本到图像模型限制
Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning
作者: Chenyu Zhang, Lanjun Wang, Yiwen Ma, Wenhui Li, An-An Liu
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2503.17987v2

摘要

arXiv:2503.17987v2 安全公告类型: replace-cross 摘要: 文字到图像(T2I)模型通常部署安全性过滤器,以防止生成敏感图像。不幸的是,最近的囚禁破解攻击方法通过手动设计提示使LLM生成对抗性提示,从而有效地绕过了安全性过滤器,同时生成敏感图像,暴露出T2I模型的安全漏洞。然而,由于LLM对T2I模型及其安全性过滤器的理解有限,现有方法需要大量查询才能实现成功的攻击,限制了它们的实际应用。为了解决这一问题,我们提出了一种Reason2Attack(R2A),旨在通过将囚禁破解攻击整合到LLM的后训练过程中来增强LLM在生成对抗性提示方面的推理能力。具体来说,我们首先根据框架语义提出了一种CoT示例合成管道,通过识别相关术语及其对应的上下文插图来生成对抗性提示。使用管道生成的CoT示例,我们微调LLM以理解推理路径并格式化输出结构。之后,我们将囚禁破解攻击任务集成到LLM的强化学习过程中,并设计了一个考虑提示长度、提示隐蔽性和提示效果的攻击过程奖励,旨在进一步提高推理准确性。在各种T2I模型上的广泛实验表明,R2A在需要较少查询的情况下实现了更好的攻击成功率。此外,我们的对抗性提示在开源和商用T2I模型之间展示了强大的攻击可迁移性。