LLM2D

摘要

许多公开可用的语言模型已经过安全调整，以降低生成有毒或可能引发责任的文本的可能性。为了对这些模型进行红队攻击或越狱，以测试其对有毒请求的合规性，用户和安全分析师开发了对抗性提示技术。一种攻击方法是对提示应用离散优化技术。然而，生成的攻击字符串通常是乱码文本，由于高测量的困惑度，很容易被防御者过滤，并且可能对未见过的任务和/或经过良好调整的模型失败。在这项工作中，我们改进了现有的算法（主要是 GCG 和 BEAST），以开发针对 Llama-2 和 Phi-3 等安全调整模型的强大且流畅的攻击。我们的技术围绕着一种新的基于蒸馏的方法，该方法鼓励受害者模型在输出概率或内部激活方面模仿有毒微调。为了鼓励人类流畅的攻击，我们在目标中添加了多模型困惑度惩罚和重复惩罚。我们还通过允许标记插入、标记交换和标记删除以及使用更长的攻击序列来增强优化器强度。由此产生的过程能够可靠地使用类似于人类编写的提示来越狱最困难的目标模型。在 Advbench 上，我们对 Llama-2-7B、Llama-3-8B 和 Vicuna-7B 的攻击成功率 >93%，同时保持模型测量的困惑度 <33；我们对 Phi-3 的攻击成功率为 95%，尽管困惑度更高。我们还发现了一个普遍优化的单一流畅提示，在 Llama-2-7B、Phi-3-mini 和 Vicuna-7B 上对以前未见过的任务的诱导率 >88%，并且可以转移到其他黑盒模型。