LLM2D
妙笔生花:Crescendo 多轮 LLM 越狱攻击
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2404.01833v2

摘要

大型语言模型(LLMs)在流行度上显著提升,并在多个应用中得到越来越广泛的采用。这些 LLMs 为了避免对负责任的人工智能造成伤害,会严格遵守抵制参与非法或不道德话题的原则。然而,最近出现了一种名为“越狱”的攻击方式,试图克服这种限制。直观地说,“越狱”攻击旨在缩小模型能够做什么和它愿意做什么之间的差距。本文介绍了一种名为 Crescendo 的新型“越狱”攻击。与现有的“越狱”方法不同,Crescendo 是一种简单的多轮“越狱”攻击,它以看似良性的方式与模型互动。它从关于当前任务的一般提示或问题开始,然后通过引用模型的回复逐渐升级对话,最终成功实现“越狱”。我们在各种公开系统上对 Crescendo 进行了评估,包括 ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b 和 LlaMA-3 70b Chat 以及 Anthropic Chat。我们的结果表明,Crescendo 具有很高的效率,在所有评估的模型和任务中都取得了很高的攻击成功率。此外,我们还展示了 Crescendomation,这是一种自动化 Crescendo 攻击的工具,并通过我们的评估证明了它对最先进模型的有效性。在 AdvBench 子集数据集中,Crescendomation 超越了其他最先进的“越狱”技术,在 GPT-4 上实现了 29-61% 的性能提升,在 Gemini-Pro 上实现了 49-71% 的性能提升。最后,我们还展示了 Crescendo 能够“越狱”多模态模型。