LLM2D
背后的笑容:用Happy Ending故事欺骗LLMs
Dagger Behind Smile: Fool LLMs with a Happy Ending Story
作者: Xurui Song, Zhixin Xie, Shuo Huai, Jiayi Kong, Jun Luo
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.13115v2

摘要

arXiv:2501.13115v2 安全公告类型: 替换-跨模型 摘要:大型语言模型(LLMs)的广泛采用引起了对“jailbreak”攻击的关注,这些攻击通过优化或手动设计 Crafting 恶意提示来利用LLMs生成恶意内容。然而,基于优化的攻击效率和迁移性有限,而现有的手动设计要么容易被检测到,要么需要复杂的与LLMs交互。在本文中,我们首先提供了一个关于“jailbreak”攻击的新视角:LLMs对积极提示更为敏感。基于这一观点,我们部署了Happy Ending Attack(HEA),通过在涉及主要通过“happy ending”形成的积极提示的场景模板中封装恶意请求,从而使LLMs在即刻或后续恶意请求中“jailbreak”。这使得HEA既高效又有效,因为它只需要最多两轮即可完全“jailbreak”LLMs。广泛的实验表明,我们的HEA能够成功地在包括GPT-4o、Llama3-70b、Gemini-pro在内的最先进的LLMs上实施,平均攻击成功率达到了88.79%。我们还提供了HEA成功的原因的定量解释。