LLM2D

摘要

arXiv:2501.13115v2 安全公告类型: 替换-跨模型摘要：大型语言模型（LLMs）的广泛采用引起了对“jailbreak”攻击的关注，这些攻击通过优化或手动设计 Crafting 恶意提示来利用LLMs生成恶意内容。然而，基于优化的攻击效率和迁移性有限，而现有的手动设计要么容易被检测到，要么需要复杂的与LLMs交互。在本文中，我们首先提供了一个关于“jailbreak”攻击的新视角：LLMs对积极提示更为敏感。基于这一观点，我们部署了Happy Ending Attack（HEA），通过在涉及主要通过“happy ending”形成的积极提示的场景模板中封装恶意请求，从而使LLMs在即刻或后续恶意请求中“jailbreak”。这使得HEA既高效又有效，因为它只需要最多两轮即可完全“jailbreak”LLMs。广泛的实验表明，我们的HEA能够成功地在包括GPT-4o、Llama3-70b、Gemini-pro在内的最先进的LLMs上实施，平均攻击成功率达到了88.79%。我们还提供了HEA成功的原因的定量解释。