LLM2D
h4rm3l:一种可组合监狱突破攻击合成的语言
h4rm3l: A language for Composable Jailbreak Attack Synthesis
作者: Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2408.04811v4

摘要

arXiv:2408.04811v4 安全部分:替换-跨领域 摘要:尽管最先进的(SOTA)广泛部署的大语言模型(LLMs)具有重要的能力,但由于其安全过滤器的有效性不足,仍有可能因名为监狱逃脱攻击的提示变换而对社会造成伤害。当前对LLM安全性的评估方法,通过模板提示的数据集和评估管道进行,未能充分覆盖监狱逃脱攻击的广泛和多样化集合,导致不安全的LLMs被广泛部署。最近的研究表明,新的监狱逃脱攻击可以通过组合方式推导出来;然而,一种形式化的可组合表示方法,可以实现通过程序合成方法探索监狱逃脱攻击的大量组合空间,这一方法尚未被提出。我们引入了h4rm3l,一种新型的方法,通过一种人类可读的领域特定语言(DSL)来解决这一缺口。我们的框架包括:(1)h4rm3l DSL,它形式化地将监狱逃脱攻击表示为参数化字符串转换原语的组合。(2)一种使用多臂赌博算法高效生成针对目标黑盒LLM优化的监狱逃脱攻击的合成器。(3)h4rm3l红色团队软件工具包,它结合了上述两个组成部分和一个强契合人类判断的自动化有害行为分类器。我们通过合成一个包含2656个成功的新颖监狱逃脱攻击的数据集,并将这些攻击与6个SOTA开源和专有LLM模型的一部分进行基准测试,展示了h4rm3l的有效性。结果显示,h4rm3l生成的攻击具有多样性和成功率,尤其是90%以上的SOTA LLMs在成功率上超过了现有文献中的监狱逃脱攻击。