摘要
arXiv:2406.05498v3 通告类型: replace-cross
摘要:监狱破解是一种新兴的对抗性攻击,它绕过了市场上现成的大语言模型(LLMs)所部署的安全对齐措施,并已演化成多种类别:基于人类的、基于优化的、基于生成的,以及最近的间接和多语言监狱破解。然而,实现一个实用的监狱破解防御是非常具有挑战性的,因为它不仅需要处理上述所有类型的监狱破解攻击,还需要对用户的提示几乎不引起任何延迟,并且要能够兼容开源和闭源的LLMs。受到传统安全概念中影子栈如何防御内存溢出攻击的启发,本文引入了一个通用的LLM监狱破解防御框架SelfDefend,该框架在一个检测状态下建立一个影子LLM作为防御实例,同时在正常栈中保护目标LLM实例(在正常回答状态下),并通过基于检查点的访问控制与之协作。SelfDefend的有效性基于我们的一项观察,即现有的LLM能够识别用户查询中的有害提示或意图,我们通过主流的GPT-3.5/4模型的实验证明了这一点,以对抗主要的监狱破解攻击。为了进一步提高防御的鲁棒性并降低成本,我们采用数据蒸馏方法来调整专用的开源防御模型。当部署用来保护GPT-3.5/4、Claude、Llama-2-7b/13b和Mistral时,这些模型在性能上优于七种最新的防御方法,并且在额外延迟方面显著低于GPT-4基于的SelfDefend,性能与GPT-4基于的SelfDefend相当。进一步的实验表明,调整后的模型能够抵御适应性监狱破解和提示注入。