LLM2D

摘要

arXiv:2502.10438v1 攻击类型：交叉摘要：针对LLMs的监狱逃脱后门攻击因其高效性和隐蔽性而引起了关注。然而，现有方法依赖于中毒数据集的构建以及耗时的微调过程。在这项工作中，我们提出了一种名为JailbreakEdit的新颖监狱逃脱后门注入方法，该方法利用模型编辑技术，在几分钟内以最小的干预将通用监狱逃脱后门注入到安全对齐的LLMs中。JailbreakEdit集成了多节点目标估计来估计监狱逃脱空间，从而创建从后门到此估计监狱逃脱空间的捷径，诱导监狱逃脱行为。我们的攻击通过将强语义附加到后门，有效地转移了模型的注意力，使其能够绕过内部的安全机制。实验结果表明，JailbreakEdit在监狱逃脱提示上实现了高监狱逃脱成功率，同时保持了生成质量，并在正常查询上保持了安全性能。我们的研究结果突显了JailbreakEdit的有效性、隐蔽性和可解释性，强调了需要在LLMs中开发更高级的防御机制。