摘要
本文提出了一种针对黑盒大型语言模型的简单但有效的越狱攻击方法,名为 FlipAttack。首先,根据自回归的特性,我们发现大型语言模型倾向于从左到右理解文本,并在文本左侧添加噪声时难以理解文本。基于这些见解,我们提出了一种通过仅基于提示本身构建左侧噪声来伪装有害提示的方法,并将其推广到 4 种翻转模式。其次,我们验证了大型语言模型执行文本翻转任务的强大能力,并开发了 4 种变体来引导大型语言模型准确地进行去噪、理解和执行有害行为。这些设计使 FlipAttack 具有通用性、隐蔽性和简单性,使其能够仅通过一次查询就越狱黑盒大型语言模型。在 8 个大型语言模型上的实验表明了 FlipAttack 的优越性。值得注意的是,它在 GPT-4o 上实现了约 98% 的攻击成功率,并且在 5 个安全模型上平均实现了约 98% 的绕过率。代码可在 GitHub 上获取\footnote{https://github.com/yueliu1999/FlipAttack}。