LLM2D
一个可优化的后缀等同于一千个模板:通过LLM作为优化器实现高效的黑盒 Jailbreak,无需肯定性短语
An Optimizable Suffix Is Worth A Thousand Templates: Efficient Black-box Jailbreaking without Affirmative Phrases via LLM as Optimizer
作者: Weipeng Jiang, Zhenting Wang, Juan Zhai, Shiqing Ma, Zhengyu Zhao, Chao Shen
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2408.11313v2

摘要

arXiv:2408.11313v2 安全对齐类型: 更改 摘要:尽管进行了先前的安全对齐努力,主流的大语言模型(LLM)在遭受监狱破解攻击时仍然可以生成有害和不道德的内容。现有的监狱破解方法大致分为两类:基于模板的方法和基于优化的方法。前者需要大量的人工努力和领域知识,而后者,以贪婪坐标梯度(GCG)为例,该方法旨在通过标记级优化最大化有害的LLM输出,也遇到了几个限制:需要白盒访问、需要预先构建的肯定短语,以及效率较低。在本文中,我们提出了ECLIPSE,一种新型且高效的黑盒监狱破解方法,利用可优化的后缀。受到LLMs强大生成能力和优化能力的启发,我们使用任务提示将监狱破解目标转化为自然语言指令。这引导LLM生成恶意查询的对抗后缀。特别是,有害性评分器提供了持续反馈,使LLM能够进行自我反思和迭代优化,以自主且高效地生成有效后缀。实验结果表明,ECLIPSE在三个开源LLM和GPT-3.5-Turbo上的平均攻击成功率(ASR)达到了0.92,显著高于GCG 2.4倍。此外,ECLIPSE在ASR方面与基于模板的方法不相上下,但在攻击效率方面更胜一筹,将平均攻击开销减少了83%。