LLM2D
大型语言模型的语言游戏与越狱
Playing Language Game with LLMs Leads to Jailbreaking
作者: Yu Peng, Zewen Long, Fangming Dong, Congyi Li, Shu Wu, Kai Chen
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.12762v2

摘要

大型语言模型 (LLM) 的出现激发了大量越狱技术的开发,这些技术旨在规避其针对恶意攻击的安全防御机制。一种有效的越狱方法是识别安全泛化失败的领域,这种现象被称为错配泛化。本文介绍了两种基于错配泛化的新型越狱方法:自然语言游戏和自定义语言游戏,这两种方法都能有效绕过LLM的安全机制,并具有多种类型和不同的变体,使其难以防御并导致高攻击率。自然语言游戏涉及使用人工语言结构及其与这些结构交织的动作,例如Ubbi Dubbi语言。在此现象的基础上,我们提出了自定义语言游戏方法:通过使用各种自定义规则与LLM互动,我们成功地在多个LLM平台上执行了越狱攻击。大量的实验结果表明了我们方法的有效性,在GPT-4o上取得了93%的成功率,在GPT-4o-mini上取得了89%的成功率,在Claude-3.5-Sonnet上取得了83%的成功率。此外,为了研究安全对齐的泛化能力,我们使用自定义语言游戏对Llama-3.1-70B进行了微调,以在我们自己的数据集中实现安全对齐,并发现当通过其他语言游戏进行交互时,微调后的模型仍然无法识别有害内容。这一发现表明,嵌入在LLM中的安全对齐知识无法跨不同的语言格式泛化,从而为该领域的未来研究开辟了新的途径。