摘要
arXiv:2502.05223v1 Announce Type: cross
摘要:Jailbreak攻击利用特定的提示来绕过LLM的安全防护,导致LLM生成有害的、不适当的和不一致的内容。当前的jailbreak方法严重依赖精心设计的系统提示和大量的查询来实现一次成功的攻击,这在大规模的红队演练中代价高昂且不切实际。为了解决这一挑战,我们提出将多种SOTA攻击者的知识提炼为一个开源模型,称为知识提炼攻击者(KDA),并通过微调使其能够自动生成连贯且多样化的攻击提示,无需精心设计系统提示。与现有攻击者相比,KDA在针对多个SOTA开源和商用黑盒LLM时,实现了更高的攻击成功率和更好的成本效率。此外,我们对基线方法和KDA生成的提示进行了定量多样性分析,发现多样化的和集成的攻击是KDA有效性和效率的关键因素。