LLM2D

摘要

大型语言模型 (LLM) 的出现激发了大量越狱技术的开发，这些技术旨在规避其针对恶意攻击的安全防御机制。一种有效的越狱方法是识别安全泛化失败的领域，这种现象被称为错配泛化。本文介绍了两种基于错配泛化的新型越狱方法：自然语言游戏和自定义语言游戏，这两种方法都能有效绕过LLM的安全机制，并具有多种类型和不同的变体，使其难以防御并导致高攻击率。自然语言游戏涉及使用人工语言结构及其与这些结构交织的动作，例如Ubbi Dubbi语言。在此现象的基础上，我们提出了自定义语言游戏方法：通过使用各种自定义规则与LLM互动，我们成功地在多个LLM平台上执行了越狱攻击。大量的实验结果表明了我们方法的有效性，在GPT-4o上取得了93%的成功率，在GPT-4o-mini上取得了89%的成功率，在Claude-3.5-Sonnet上取得了83%的成功率。此外，为了研究安全对齐的泛化能力，我们使用自定义语言游戏对Llama-3.1-70B进行了微调，以在我们自己的数据集中实现安全对齐，并发现当通过其他语言游戏进行交互时，微调后的模型仍然无法识别有害内容。这一发现表明，嵌入在LLM中的安全对齐知识无法跨不同的语言格式泛化，从而为该领域的未来研究开辟了新的途径。