LLM2D
验证LLM安全性以对抗 adversarial prompting
Certifying LLM Safety against Adversarial Prompting
作者: Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil Feizi, Himabindu Lakkaraju
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2309.02705v4

摘要

arXiv:2309.02705v4 安全声明类型: replace-cross 摘要:大型语言模型(LLMs)容易受到恶意攻击的威胁,这些攻击会在输入提示中添加恶意标记,以绕过LLM的安全保护措施并使其生成有害内容。在本工作中,我们引入了消除并检查框架,这是第一个针对具有可认证安全保证的对抗提示的防御框架。给定一个提示,我们的程序会逐个消除标记,并使用安全过滤器检查生成的子序列。我们的安全性证书保证在一定程度上,不会由于对抗攻击而导致有害提示被误标为安全。我们以两种方式实现安全过滤器,使用Llama 2和DistilBERT,并对比了两种情况下消除并检查的性能。我们防御了三种攻击模式:i)对抗后缀,其中在有害提示的末尾附加一个对抗序列;ii)对抗插入,其中在提示的中间任意位置插入对抗序列;iii)对抗渗透,其中在提示的任意位置插入对抗标记,不一定作为一个连续的块。我们的实验结果表明,此程序可以在保持对安全提示良好实证性能的同时,获得对有害提示的强大认证安全保证。此外,我们提出了三种高效的实证防御方法:i)RandEC,一种随机子采样版本的消除并检查;ii)GreedyEC,贪婪地消除最大化有害类别softmax评分的标记;iii)GradEC,使用梯度信息优化消除的标记。我们展示了它们在Greedy Coordinate Gradient (GCG)攻击算法生成的对抗提示中的有效性。我们的实验代码可在 https://github.com/aounon/certified-llm-safety 获取。