LLM2D
针对大型语言模型的有效且隐蔽的模糊测试驱动越狱攻击
Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14866v1

摘要

大型语言模型(LLMs)在各种任务中表现出色,但仍容易受到越狱攻击,攻击者通过创建越狱提示来误导模型生成有害或冒犯性内容。当前的越狱方法要么严重依赖手工制作的模板,这在可扩展性和适应性方面存在挑战,要么难以生成语义连贯的提示,使其容易被检测到。此外,大多数现有方法涉及冗长的提示,导致查询成本更高。本文针对这些挑战,提出了一种新的越狱攻击框架,这是一种自动化的黑盒越狱攻击框架,结合了黑盒模糊测试方法并进行了一系列定制设计。我们的方法不依赖手工制作的模板,而是从一个空种子池开始,无需搜索任何相关的越狱模板。我们还开发了三种新的问题依赖变异策略,使用LLM助手生成语义连贯且长度显著减少的提示。此外,我们实现了一个两级判断模块,以准确检测真正的成功越狱。我们在7个代表性LLM上评估了我们的方法,并与5种最先进的越狱攻击策略进行了比较。对于GPT-3.5 turbo、GPT-4和Gemini-Pro等专有LLM API,我们的方法分别实现了超过90%、80%和74%的攻击成功率,超过了现有基线60%以上。此外,我们的方法在显著减少越狱提示长度的同时,能够保持高语义连贯性。当针对GPT-4时,我们的方法即使在100个标记的情况下也能实现超过78%的攻击成功率。此外,我们的方法具有可转移性,并且对最先进的防御措施具有鲁棒性。我们将在发表后开源我们的代码。