LLM2D

摘要

近年来，大型语言模型（LLM）得到了广泛应用，引发了对其安全性的担忧。传统的越狱攻击通常依赖于模型内部信息，或者在探索受害者模型的不安全行为时存在局限性，限制了其通用性。本文介绍了一种名为 PathSeeker 的新型黑盒越狱方法，其灵感来自于老鼠逃离迷宫的游戏。我们认为每个 LLM 都有其独特的“安全迷宫”，攻击者试图通过学习接收到的反馈和积累的经验来找到出口，从而破坏目标 LLM 的安全防御。我们的方法利用多智能体强化学习，其中较小的模型协同工作以指导主 LLM 执行变异操作以实现攻击目标。通过根据模型的反馈逐步修改输入，我们的系统诱发了更丰富、更有害的响应。在我们手动尝试执行越狱攻击的过程中，我们发现目标模型响应的词汇量逐渐变得更丰富，最终产生了有害的响应。基于此观察，我们还引入了一种奖励机制，利用 LLM 响应中词汇丰富度的扩展来削弱安全约束。我们的方法在 13 个商业和开源 LLM 上进行测试时，优于五种最先进的攻击技术，实现了较高的攻击成功率，尤其是在安全对齐性强的商业模型（如 GPT-4o-mini、Claude-3.5 和 GLM-4-air）上。本研究旨在提高对 LLM 安全漏洞的理解，我们希望这项研究能够为开发更强大的防御措施做出贡献。