摘要
尽管大型语言模型 (LLM) 在零样本情况下执行复杂任务方面展现出显著的能力,但它们容易受到越狱攻击,并且可以被操纵以产生有害的输出。最近,越来越多的研究将越狱攻击归类为令牌级和提示级攻击。然而,先前的工作主要忽视了越狱攻击的多种关键因素,大多数研究集中在 LLM 的漏洞上,而缺乏对防御增强型 LLM 的探索。为了解决这些问题,我们评估了各种攻击设置对 LLM 性能的影响,并为越狱攻击提供了一个基准,鼓励采用标准化的评估框架。具体而言,我们从目标级和攻击级两个角度评估了在 LLM 上实施越狱攻击的八个关键因素。我们还在两个广泛使用的数据集上对六种防御方法进行了七种有代表性的越狱攻击,涵盖了大约 354 个实验,在 A800-80G 上进行了约 55,000 个 GPU 小时。我们的实验结果突出了对防御增强型 LLM 进行这些攻击的标准化基准测试的必要性。我们的代码可在 https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking 获取。