LLM2D

摘要

arXiv:2503.17987v2 安全公告类型: replace-cross 摘要: 文字到图像(T2I)模型通常部署安全性过滤器，以防止生成敏感图像。不幸的是，最近的囚禁破解攻击方法通过手动设计提示使LLM生成对抗性提示，从而有效地绕过了安全性过滤器，同时生成敏感图像，暴露出T2I模型的安全漏洞。然而，由于LLM对T2I模型及其安全性过滤器的理解有限，现有方法需要大量查询才能实现成功的攻击，限制了它们的实际应用。为了解决这一问题，我们提出了一种Reason2Attack(R2A)，旨在通过将囚禁破解攻击整合到LLM的后训练过程中来增强LLM在生成对抗性提示方面的推理能力。具体来说，我们首先根据框架语义提出了一种CoT示例合成管道，通过识别相关术语及其对应的上下文插图来生成对抗性提示。使用管道生成的CoT示例，我们微调LLM以理解推理路径并格式化输出结构。之后，我们将囚禁破解攻击任务集成到LLM的强化学习过程中，并设计了一个考虑提示长度、提示隐蔽性和提示效果的攻击过程奖励，旨在进一步提高推理准确性。在各种T2I模型上的广泛实验表明，R2A在需要较少查询的情况下实现了更好的攻击成功率。此外，我们的对抗性提示在开源和商用T2I模型之间展示了强大的攻击可迁移性。