LLM2D
自我指导少次-shot 硬件故障攻击:将攻击分解为模式学习和行为学习
Self-Instruct Few-Shot Jailbreaking: Decompose the Attack into Pattern and Behavior Learning
作者: Jiaqi Hua, Wanxu Wei
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.07959v2

摘要

arXiv:2501.07959v2 宣告类型: 修改 摘要: 近期,有一些研究工作致力于通过少量恶意演示数据对大型语言模型(LLMs)进行逃逸(jailbreaking)。特别是郑等人专注于通过注入特殊标记并采用演示级别随机搜索(known as Improved Few-Shot Jailbreaking (I-FSJ))来提高少量演示逃逸(Few-Shot Jailbreaking, FSJ)的效率。然而,我们注意到这种方法仍可能需要较长的上下文来逃逸先进的模型,例如,对Meta-Llama-3-8B-Instruct(Llama-3)进行32轮演示\cite{llama3modelcard}的逃逸。在本文中,我们讨论了I-FSJ的局限性,并提出了一种名为Self-Instruct Few-Shot Jailbreaking(Self-Instruct-FSJ)的框架,该框架通过演示级别贪婪搜索来辅助。该框架将FSJ攻击分解为模式和行为学习,以更通用和高效的方式利用模型的漏洞。我们进行了详细的实验来评估我们的方法,并将其与基准算法进行了比较。我们的代码可在 https://github.com/iphosi/Self-Instruct-FSJ 获取。