LLM2D
PathSeeker:基于强化学习越狱方法探索大语言模型安全漏洞
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14177v1

摘要

近年来,大型语言模型(LLMs)得到了广泛应用,同时也引发了对其安全性的日益关注。传统的越狱攻击依赖于模型的内部细节,或在探索受害模型的不安全行为时存在局限性,限制了其通用性。本文介绍了一种名为PathSeeker的新型黑箱越狱方法,灵感来源于逃离安全迷宫的概念。这项工作受到老鼠逃离迷宫游戏的启发。我们认为每个LLM都有其独特的“安全迷宫”,攻击者试图通过接收到的反馈和积累的经验来找到出口,以破坏目标LLM的安全防御。我们的方法利用多智能体强化学习,其中较小的模型协作引导主LLM执行变异操作以实现攻击目标。通过根据模型的反馈逐步修改输入,我们的系统诱导出更丰富、有害的响应。在我们手动尝试进行越狱攻击时,我们发现目标模型的响应词汇逐渐变得丰富,最终产生了有害的响应。基于这一观察,我们还引入了一种奖励机制,利用LLM响应中词汇丰富性的扩展来削弱安全约束。我们的方法在测试13个商业和开源LLM时,优于五种最先进的攻击技术,实现了高攻击成功率,特别是在安全对齐较强的商业模型如GPT-4o-mini、Claude-3.5和GLM-4-air中表现尤为突出。本研究旨在加深对LLM安全漏洞的理解,并希望这一研究能为开发更强大的防御措施做出贡献。