LLM2D

摘要

近年来，大型语言模型（LLMs）得到了广泛应用，同时也引发了对其安全性的日益关注。传统的越狱攻击依赖于模型的内部细节，或在探索受害模型的不安全行为时存在局限性，限制了其通用性。本文介绍了一种名为PathSeeker的新型黑箱越狱方法，灵感来源于逃离安全迷宫的概念。这项工作受到老鼠逃离迷宫游戏的启发。我们认为每个LLM都有其独特的“安全迷宫”，攻击者试图通过接收到的反馈和积累的经验来找到出口，以破坏目标LLM的安全防御。我们的方法利用多智能体强化学习，其中较小的模型协作引导主LLM执行变异操作以实现攻击目标。通过根据模型的反馈逐步修改输入，我们的系统诱导出更丰富、有害的响应。在我们手动尝试进行越狱攻击时，我们发现目标模型的响应词汇逐渐变得丰富，最终产生了有害的响应。基于这一观察，我们还引入了一种奖励机制，利用LLM响应中词汇丰富性的扩展来削弱安全约束。我们的方法在测试13个商业和开源LLM时，优于五种最先进的攻击技术，实现了高攻击成功率，特别是在安全对齐较强的商业模型如GPT-4o-mini、Claude-3.5和GLM-4-air中表现尤为突出。本研究旨在加深对LLM安全漏洞的理解，并希望这一研究能为开发更强大的防御措施做出贡献。