摘要
我们证明,即使是最新的安全对齐的大型语言模型 (LLM) 也无法抵御简单的自适应越狱攻击。首先,我们展示了如何成功地利用对 logprob 的访问来进行越狱:我们最初设计一个对抗性提示模板(有时会根据目标 LLM 进行调整),然后我们在后缀上应用随机搜索以最大化目标 logprob(例如,令牌 "Sure" 的 logprob),可能进行多次重启。通过这种方式,我们根据 GPT-4 作为评判标准,在 Vicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat-7B/13B/70B、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4o 和 R2D2 上实现了 100% 的攻击成功率,这些模型来自 HarmBench,并且经过了针对 GCG 攻击的对抗性训练。我们还展示了如何通过传输或预填充攻击以 100% 的成功率越狱所有不公开 logprob 的 Claude 模型。此外,我们还展示了如何在一个受限的令牌集中使用随机搜索来查找中毒模型中的木马字符串——这是一项与越狱有很多相似之处的任务——这是我们在 SaTML'24 木马检测竞赛中获得第一名的算法。这些攻击背后的共同主题是适应性至关重要:不同的模型容易受到不同的提示模板的攻击(例如,R2D2 对情境学习提示非常敏感),一些模型根据其 API 具有独特的漏洞(例如,Claude 的预填充),并且在某些情况下,根据先验知识限制令牌搜索空间至关重要(例如,木马检测)。为了便于复现,我们在 JailbreakBench 格式的 https://github.com/tml-epfl/llm-adaptive-attacks 中提供了代码、日志和越狱工件。