摘要
arXiv:2408.11313v2 安全对齐类型: 更改
摘要:尽管进行了先前的安全对齐努力,主流的大语言模型(LLM)在遭受监狱破解攻击时仍然可以生成有害和不道德的内容。现有的监狱破解方法大致分为两类:基于模板的方法和基于优化的方法。前者需要大量的人工努力和领域知识,而后者,以贪婪坐标梯度(GCG)为例,该方法旨在通过标记级优化最大化有害的LLM输出,也遇到了几个限制:需要白盒访问、需要预先构建的肯定短语,以及效率较低。在本文中,我们提出了ECLIPSE,一种新型且高效的黑盒监狱破解方法,利用可优化的后缀。受到LLMs强大生成能力和优化能力的启发,我们使用任务提示将监狱破解目标转化为自然语言指令。这引导LLM生成恶意查询的对抗后缀。特别是,有害性评分器提供了持续反馈,使LLM能够进行自我反思和迭代优化,以自主且高效地生成有效后缀。实验结果表明,ECLIPSE在三个开源LLM和GPT-3.5-Turbo上的平均攻击成功率(ASR)达到了0.92,显著高于GCG 2.4倍。此外,ECLIPSE在ASR方面与基于模板的方法不相上下,但在攻击效率方面更胜一筹,将平均攻击开销减少了83%。