摘要
arXiv:2408.11182v2 Announce Type: replace-cross
摘要:大语言模型(LLM)脱狱是指一种旨在绕过LLM的安全保障,生成与安全使用指南不一致内容的攻击类型。基于对自注意力计算过程的洞察,本文提出了一种新的黑盒脱狱方法,该方法通过在载体文章中战略性地注入被禁止的查询来构建负载提示。载体文章在语义上与被禁止的查询保持接近,这是通过将超词义文章和上下文(两者都是从被禁止的查询生成的)结合起来生成的。使用载体文章的直觉是为了激活与被禁止查询的语义相关的模型神经元,同时抑制会导致不恰当文本的神经元。载体文章本身是无害的,我们利用提示注入技术生成了负载提示。我们使用JailbreakBench进行了评估,在不同目标模型上测试了100个不同的脱狱目标。实验结果表明,我们方法的优越性,其在所有目标模型上的平均成功率为63%,显著优于现有的黑盒脱狱方法。