LLM2D

摘要

arXiv:2501.07959v2 宣告类型: 修改摘要: 近期，有一些研究工作致力于通过少量恶意演示数据对大型语言模型（LLMs）进行逃逸（jailbreaking）。特别是郑等人专注于通过注入特殊标记并采用演示级别随机搜索（known as Improved Few-Shot Jailbreaking (I-FSJ)）来提高少量演示逃逸（Few-Shot Jailbreaking, FSJ）的效率。然而，我们注意到这种方法仍可能需要较长的上下文来逃逸先进的模型，例如，对Meta-Llama-3-8B-Instruct（Llama-3）进行32轮演示\cite{llama3modelcard}的逃逸。在本文中，我们讨论了I-FSJ的局限性，并提出了一种名为Self-Instruct Few-Shot Jailbreaking（Self-Instruct-FSJ）的框架，该框架通过演示级别贪婪搜索来辅助。该框架将FSJ攻击分解为模式和行为学习，以更通用和高效的方式利用模型的漏洞。我们进行了详细的实验来评估我们的方法，并将其与基准算法进行了比较。我们的代码可在 https://github.com/iphosi/Self-Instruct-FSJ 获取。