LLM2D

摘要

arXiv:2406.05498v3 通告类型: replace-cross 摘要：监狱破解是一种新兴的对抗性攻击，它绕过了市场上现成的大语言模型（LLMs）所部署的安全对齐措施，并已演化成多种类别：基于人类的、基于优化的、基于生成的，以及最近的间接和多语言监狱破解。然而，实现一个实用的监狱破解防御是非常具有挑战性的，因为它不仅需要处理上述所有类型的监狱破解攻击，还需要对用户的提示几乎不引起任何延迟，并且要能够兼容开源和闭源的LLMs。受到传统安全概念中影子栈如何防御内存溢出攻击的启发，本文引入了一个通用的LLM监狱破解防御框架SelfDefend，该框架在一个检测状态下建立一个影子LLM作为防御实例，同时在正常栈中保护目标LLM实例（在正常回答状态下），并通过基于检查点的访问控制与之协作。SelfDefend的有效性基于我们的一项观察，即现有的LLM能够识别用户查询中的有害提示或意图，我们通过主流的GPT-3.5/4模型的实验证明了这一点，以对抗主要的监狱破解攻击。为了进一步提高防御的鲁棒性并降低成本，我们采用数据蒸馏方法来调整专用的开源防御模型。当部署用来保护GPT-3.5/4、Claude、Llama-2-7b/13b和Mistral时，这些模型在性能上优于七种最新的防御方法，并且在额外延迟方面显著低于GPT-4基于的SelfDefend，性能与GPT-4基于的SelfDefend相当。进一步的实验表明，调整后的模型能够抵御适应性监狱破解和提示注入。