摘要
arXiv:2502.10438v1 攻击类型:交叉
摘要:针对LLMs的监狱逃脱后门攻击因其高效性和隐蔽性而引起了关注。然而,现有方法依赖于中毒数据集的构建以及耗时的微调过程。在这项工作中,我们提出了一种名为JailbreakEdit的新颖监狱逃脱后门注入方法,该方法利用模型编辑技术,在几分钟内以最小的干预将通用监狱逃脱后门注入到安全对齐的LLMs中。JailbreakEdit集成了多节点目标估计来估计监狱逃脱空间,从而创建从后门到此估计监狱逃脱空间的捷径,诱导监狱逃脱行为。我们的攻击通过将强语义附加到后门,有效地转移了模型的注意力,使其能够绕过内部的安全机制。实验结果表明,JailbreakEdit在监狱逃脱提示上实现了高监狱逃脱成功率,同时保持了生成质量,并在正常查询上保持了安全性能。我们的研究结果突显了JailbreakEdit的有效性、隐蔽性和可解释性,强调了需要在LLMs中开发更高级的防御机制。