LLM2D

摘要

arXiv:2408.11313v2 安全对齐类型: 更改摘要：尽管进行了先前的安全对齐努力，主流的大语言模型（LLM）在遭受监狱破解攻击时仍然可以生成有害和不道德的内容。现有的监狱破解方法大致分为两类：基于模板的方法和基于优化的方法。前者需要大量的人工努力和领域知识，而后者，以贪婪坐标梯度（GCG）为例，该方法旨在通过标记级优化最大化有害的LLM输出，也遇到了几个限制：需要白盒访问、需要预先构建的肯定短语，以及效率较低。在本文中，我们提出了ECLIPSE，一种新型且高效的黑盒监狱破解方法，利用可优化的后缀。受到LLMs强大生成能力和优化能力的启发，我们使用任务提示将监狱破解目标转化为自然语言指令。这引导LLM生成恶意查询的对抗后缀。特别是，有害性评分器提供了持续反馈，使LLM能够进行自我反思和迭代优化，以自主且高效地生成有效后缀。实验结果表明，ECLIPSE在三个开源LLM和GPT-3.5-Turbo上的平均攻击成功率（ASR）达到了0.92，显著高于GCG 2.4倍。此外，ECLIPSE在ASR方面与基于模板的方法不相上下，但在攻击效率方面更胜一筹，将平均攻击开销减少了83%。