摘要
arXiv:2412.12145v2 安全类型:替换交叉
摘要:隐喻作为一种隐含的信息传递方法,有助于对复杂主题进行泛化理解。然而,隐喻可能会被利用来绕过大型语言模型(LLMs)的安全对齐机制,导致有害知识的盗窃。在我们的研究中,我们介绍了一种新的攻击框架,利用LLMs的想象力实现越狱,即通过对抗性隐喻(AVATAR)。具体来说,为了引发有害的响应,AVATAR从给定的有害目标中提取有害实体,并基于LLMs的想象力将它们映射到无害的对抗实体。然后,根据这些隐喻,有害目标被嵌入到类人交互中,以适应性地实现越狱。实验结果表明,AVATAR能够有效地且可转移地对LLMs进行越狱,并在多个高级LLMs中实现了最先进的攻击成功率。我们的研究揭示了LLMs从其内在想象力能力中所面临的安全风险。此外,对该攻击的分析表明,LLMs对对抗性隐喻的脆弱性以及开发抵御对抗性隐喻导致的越狱的防御方法的必要性。**警告:本文包含可能来自LLMs的有害内容。**