LLM2D

摘要

大型语言模型 (LLM) 在各种任务中表现出色，但仍然容易受到越狱攻击，攻击者会创建越狱提示来误导模型生成有害或冒犯性内容。目前的越狱方法要么严重依赖手动制作的模板，这在可扩展性和适应性方面存在挑战，要么难以生成语义连贯的提示，从而易于检测。此外，大多数现有方法都涉及冗长的提示，导致查询成本更高。本文为了解决这些挑战，我们引入了一种新颖的越狱攻击框架，这是一个自动化的、黑盒越狱攻击框架，它采用了一系列定制设计的黑盒模糊测试方法。我们的方法不像依赖手动制作的模板，而是从空的种子池开始，无需搜索任何相关的越狱模板。我们还开发了三种新颖的依赖于问题的变异策略，使用 LLM 助手生成在保持语义连贯性的同时显著缩短其长度的提示。此外，我们实现了一个两级判断模块来准确检测真正的成功越狱。我们对 7 个具有代表性的 LLM 进行了评估，并将其与 5 种最先进的越狱攻击策略进行了比较。对于专有的 LLM API，例如 GPT-3.5 turbo、GPT-4 和 Gemini-Pro，我们的方法的攻击成功率分别超过 90%、80% 和 74%，超过现有基线 60% 以上。此外，我们的方法可以在显著减少越狱提示长度的同时保持较高的语义连贯性。当针对 GPT-4 时，即使只有 100 个 token，我们的方法也能达到超过 78% 的攻击成功率。此外，我们的方法展示了可迁移性，并且对最先进的防御措施具有鲁棒性。我们将公开发布我们的代码。