LLM2D
SelfDefend:LLM们以实用的方式防御模型破解企图
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
作者: Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2406.05498v3

摘要

arXiv:2406.05498v3 通告类型: replace-cross 摘要:监狱破解是一种新兴的对抗性攻击,它绕过了市场上现成的大语言模型(LLMs)所部署的安全对齐措施,并已演化成多种类别:基于人类的、基于优化的、基于生成的,以及最近的间接和多语言监狱破解。然而,实现一个实用的监狱破解防御是非常具有挑战性的,因为它不仅需要处理上述所有类型的监狱破解攻击,还需要对用户的提示几乎不引起任何延迟,并且要能够兼容开源和闭源的LLMs。受到传统安全概念中影子栈如何防御内存溢出攻击的启发,本文引入了一个通用的LLM监狱破解防御框架SelfDefend,该框架在一个检测状态下建立一个影子LLM作为防御实例,同时在正常栈中保护目标LLM实例(在正常回答状态下),并通过基于检查点的访问控制与之协作。SelfDefend的有效性基于我们的一项观察,即现有的LLM能够识别用户查询中的有害提示或意图,我们通过主流的GPT-3.5/4模型的实验证明了这一点,以对抗主要的监狱破解攻击。为了进一步提高防御的鲁棒性并降低成本,我们采用数据蒸馏方法来调整专用的开源防御模型。当部署用来保护GPT-3.5/4、Claude、Llama-2-7b/13b和Mistral时,这些模型在性能上优于七种最新的防御方法,并且在额外延迟方面显著低于GPT-4基于的SelfDefend,性能与GPT-4基于的SelfDefend相当。进一步的实验表明,调整后的模型能够抵御适应性监狱破解和提示注入。