摘要
近年来,大型语言模型(LLM)得到了广泛应用,引发了对其安全性的担忧。传统的越狱攻击通常依赖于模型内部信息,或者在探索受害者模型的不安全行为时存在局限性,限制了其通用性。本文介绍了一种名为 PathSeeker 的新型黑盒越狱方法,其灵感来自于老鼠逃离迷宫的游戏。我们认为每个 LLM 都有其独特的“安全迷宫”,攻击者试图通过学习接收到的反馈和积累的经验来找到出口,从而破坏目标 LLM 的安全防御。我们的方法利用多智能体强化学习,其中较小的模型协同工作以指导主 LLM 执行变异操作以实现攻击目标。通过根据模型的反馈逐步修改输入,我们的系统诱发了更丰富、更有害的响应。在我们手动尝试执行越狱攻击的过程中,我们发现目标模型响应的词汇量逐渐变得更丰富,最终产生了有害的响应。基于此观察,我们还引入了一种奖励机制,利用 LLM 响应中词汇丰富度的扩展来削弱安全约束。我们的方法在 13 个商业和开源 LLM 上进行测试时,优于五种最先进的攻击技术,实现了较高的攻击成功率,尤其是在安全对齐性强的商业模型(如 GPT-4o-mini、Claude-3.5 和 GLM-4-air)上。本研究旨在提高对 LLM 安全漏洞的理解,我们希望这项研究能够为开发更强大的防御措施做出贡献。