摘要
大型语言模型 (LLM) 在开放部署中,安全性是一个至关重要的考量因素。为此,安全保障方法旨在通过安全对齐或护栏机制来强制执行 LLM 的道德和负责任使用。然而,我们发现恶意攻击者可以利用安全保障的误报,即误导安全保障模型阻止安全内容,从而对 LLM 造成新的拒绝服务 (DoS) 攻击。具体来说,通过对用户客户端软件进行软件或网络钓鱼攻击,攻击者将一个简短的、看似无害的对抗性提示插入到配置文件中的用户提示模板中;因此,此提示出现在最终用户请求中,在用户界面中不可见,也不容易识别。通过设计一个利用梯度和注意力信息的优化过程,我们的攻击可以自动生成看似安全的对抗性提示,长度约为 30 个字符,可以普遍阻止 Llama Guard 3 上超过 97% 的用户请求。该攻击为评估 LLM 安全保障提供了一个新的维度,重点关注误报,这与传统的越狱攻击有着根本的不同。