摘要
本报告提出了一种新颖的黑盒越狱攻击框架,该框架整合了多种基于大型语言模型 (LLM) 的攻击方法,以实现可迁移且强大的越狱攻击。我们的方法基于对现有越狱研究和实践的三个关键观察结果:首先,与单个攻击相比,集成方法在暴露已对齐大型语言模型的漏洞方面应该更有效;其次,不同的恶意指令在越狱难度上存在固有差异,需要进行差异化处理以确保更有效的攻击;最后,恶意指令的语义连贯性对于触发已对齐大型语言模型的防御至关重要;因此,必须仔细破坏其语义连贯性以操纵其嵌入表示,从而提高越狱成功率。我们通过参加 2024 年大型语言模型和智能体安全竞赛验证了我们的方法,我们的团队在越狱攻击赛道中取得了顶级成绩。