LLM2D

摘要

arXiv:2309.02705v4 安全声明类型: replace-cross 摘要：大型语言模型（LLMs）容易受到恶意攻击的威胁，这些攻击会在输入提示中添加恶意标记，以绕过LLM的安全保护措施并使其生成有害内容。在本工作中，我们引入了消除并检查框架，这是第一个针对具有可认证安全保证的对抗提示的防御框架。给定一个提示，我们的程序会逐个消除标记，并使用安全过滤器检查生成的子序列。我们的安全性证书保证在一定程度上，不会由于对抗攻击而导致有害提示被误标为安全。我们以两种方式实现安全过滤器，使用Llama 2和DistilBERT，并对比了两种情况下消除并检查的性能。我们防御了三种攻击模式：i）对抗后缀，其中在有害提示的末尾附加一个对抗序列；ii）对抗插入，其中在提示的中间任意位置插入对抗序列；iii）对抗渗透，其中在提示的任意位置插入对抗标记，不一定作为一个连续的块。我们的实验结果表明，此程序可以在保持对安全提示良好实证性能的同时，获得对有害提示的强大认证安全保证。此外，我们提出了三种高效的实证防御方法：i）RandEC，一种随机子采样版本的消除并检查；ii）GreedyEC，贪婪地消除最大化有害类别softmax评分的标记；iii）GradEC，使用梯度信息优化消除的标记。我们展示了它们在Greedy Coordinate Gradient (GCG)攻击算法生成的对抗提示中的有效性。我们的实验代码可在 https://github.com/aounon/certified-llm-safety 获取。