LLM2D

摘要

大型语言模型（LLMs）在流行度上显著提升，并在多个应用中得到越来越广泛的采用。这些 LLMs 为了避免对负责任的人工智能造成伤害，会严格遵守抵制参与非法或不道德话题的原则。然而，最近出现了一种名为“越狱”的攻击方式，试图克服这种限制。直观地说，“越狱”攻击旨在缩小模型能够做什么和它愿意做什么之间的差距。本文介绍了一种名为 Crescendo 的新型“越狱”攻击。与现有的“越狱”方法不同，Crescendo 是一种简单的多轮“越狱”攻击，它以看似良性的方式与模型互动。它从关于当前任务的一般提示或问题开始，然后通过引用模型的回复逐渐升级对话，最终成功实现“越狱”。我们在各种公开系统上对 Crescendo 进行了评估，包括 ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b 和 LlaMA-3 70b Chat 以及 Anthropic Chat。我们的结果表明，Crescendo 具有很高的效率，在所有评估的模型和任务中都取得了很高的攻击成功率。此外，我们还展示了 Crescendomation，这是一种自动化 Crescendo 攻击的工具，并通过我们的评估证明了它对最先进模型的有效性。在 AdvBench 子集数据集中，Crescendomation 超越了其他最先进的“越狱”技术，在 GPT-4 上实现了 29-61% 的性能提升，在 Gemini-Pro 上实现了 49-71% 的性能提升。最后，我们还展示了 Crescendo 能够“越狱”多模态模型。