摘要
arXiv:2410.02916v3 安全通告类型: replace-cross
摘要:对于开放部署的大语言模型(LLMs),安全性是一个至关重要的考量因素,这促使人们开发出通过安全对齐或护栏机制来确保伦理和负责任使用的保护方法。利用保护方法的假阴性而发起的逃逸攻击已成为LLM安全领域中的一个重点关注方向。然而,我们发现恶意攻击者也可以利用保护方法的假阳性,即使保护模型错误地阻止了安全内容,从而导致服务中断(DoS),影响LLM用户。为了弥补这一被忽视的威胁的知识空白,我们探索了多种攻击方法,包括向用户提示模板中插入简短的敌对提示,以及通过被污染的微调来破坏服务器上的LLM。无论是哪种方式,攻击都会从客户端触发保护模式拒绝用户请求。我们的评估证明了这一威胁在多种场景中的严重性。例如,在白盒敌对提示注入的情景中,攻击者可以使用我们的优化过程自动生成看似安全但实际上能普遍阻止单个用户超过97%请求的敌对提示,这些敌对提示大约只有30个字符长。这些发现揭示了LLM保护评估中一个新的维度——对手对抗鲁棒性,特别是针对假阳性。