摘要
arXiv:2501.13115v2 安全公告类型: 替换-跨模型
摘要:大型语言模型(LLMs)的广泛采用引起了对“jailbreak”攻击的关注,这些攻击通过优化或手动设计 Crafting 恶意提示来利用LLMs生成恶意内容。然而,基于优化的攻击效率和迁移性有限,而现有的手动设计要么容易被检测到,要么需要复杂的与LLMs交互。在本文中,我们首先提供了一个关于“jailbreak”攻击的新视角:LLMs对积极提示更为敏感。基于这一观点,我们部署了Happy Ending Attack(HEA),通过在涉及主要通过“happy ending”形成的积极提示的场景模板中封装恶意请求,从而使LLMs在即刻或后续恶意请求中“jailbreak”。这使得HEA既高效又有效,因为它只需要最多两轮即可完全“jailbreak”LLMs。广泛的实验表明,我们的HEA能够成功地在包括GPT-4o、Llama3-70b、Gemini-pro在内的最先进的LLMs上实施,平均攻击成功率达到了88.79%。我们还提供了HEA成功的原因的定量解释。