LLM2D
纳威人或恶棍:通过比喻性化身劫持语言模型
Na'vi or Knave: Jailbreaking Language Models via Metaphorical Avatars
作者: Yu Yan, Sheng Sun, Junqi Tong, Min Liu, Qi Li
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2412.12145v3

摘要

arXiv:2412.12145v3 宣告类型: replace-cross 摘要:隐喻作为一种隐含的信息传递方式,能够促进复杂主题的一般理解。然而,隐喻可能会被用来规避大型语言模型(LLMs)的安全对齐机制,导致有害知识的盗窃。在我们的研究中,我们介绍了一种新的攻击框架,利用LLMs的想象能力实现逃逸,称为Jailbreak Via Adversarial MeTA-phoR(AVATAR)。具体来说,为了引发有害反应,AVATAR从给定的有害目标中提取有害实体,并基于LLMs的想象将它们映射到无害的对抗性实体。然后,根据这些隐喻,有害目标被嵌入到人类互动中,以适应性地实现逃逸。实验结果表明,AVATAR能够有效地且可转移地逃逸LLMs,并在多个高级LLMs中实现最先进的攻击成功率。我们的研究揭示了LLMs从其内生的想象能力中存在安全风险。此外,分析研究揭示了LLMs对抗隐喻的脆弱性以及防范由对抗隐喻引起的逃逸的防御方法的必要性。**注意:本文包含来自LLMs的潜在有害内容。**