LLM2D

摘要

大型语言模型（LLMs）在各种任务中表现出色，但仍容易受到越狱攻击，攻击者通过创建越狱提示来误导模型生成有害或冒犯性内容。当前的越狱方法要么严重依赖手工制作的模板，这在可扩展性和适应性方面存在挑战，要么难以生成语义连贯的提示，使其容易被检测到。此外，大多数现有方法涉及冗长的提示，导致查询成本更高。本文针对这些挑战，提出了一种新的越狱攻击框架，这是一种自动化的黑盒越狱攻击框架，结合了黑盒模糊测试方法并进行了一系列定制设计。我们的方法不依赖手工制作的模板，而是从一个空种子池开始，无需搜索任何相关的越狱模板。我们还开发了三种新的问题依赖变异策略，使用LLM助手生成语义连贯且长度显著减少的提示。此外，我们实现了一个两级判断模块，以准确检测真正的成功越狱。我们在7个代表性LLM上评估了我们的方法，并与5种最先进的越狱攻击策略进行了比较。对于GPT-3.5 turbo、GPT-4和Gemini-Pro等专有LLM API，我们的方法分别实现了超过90%、80%和74%的攻击成功率，超过了现有基线60%以上。此外，我们的方法在显著减少越狱提示长度的同时，能够保持高语义连贯性。当针对GPT-4时，我们的方法即使在100个标记的情况下也能实现超过78%的攻击成功率。此外，我们的方法具有可转移性，并且对最先进的防御措施具有鲁棒性。我们将在发表后开源我们的代码。