LLM2D

摘要

大型语言模型 (LLM) 在开放部署中，安全性是一个至关重要的考量因素。为此，安全保障方法旨在通过安全对齐或护栏机制来强制执行 LLM 的道德和负责任使用。然而，我们发现恶意攻击者可以利用安全保障的误报，即误导安全保障模型阻止安全内容，从而对 LLM 造成新的拒绝服务 (DoS) 攻击。具体来说，通过对用户客户端软件进行软件或网络钓鱼攻击，攻击者将一个简短的、看似无害的对抗性提示插入到配置文件中的用户提示模板中；因此，此提示出现在最终用户请求中，在用户界面中不可见，也不容易识别。通过设计一个利用梯度和注意力信息的优化过程，我们的攻击可以自动生成看似安全的对抗性提示，长度约为 30 个字符，可以普遍阻止 Llama Guard 3 上超过 97% 的用户请求。该攻击为评估 LLM 安全保障提供了一个新的维度，重点关注误报，这与传统的越狱攻击有着根本的不同。