LLM2D
围攻:基于树搜索的自主多轮大规模语言模型越狱
Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
作者: Andy Zhou
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2503.10619v3

摘要

arXiv:2503.10619v3 通告类型: 更新 摘要: 我们提出了Siege,这是一种多轮对抗框架,从树搜索的角度建模了大型语言模型(LLM)安全性的逐渐侵蚀。与依赖于一个精心设计的提示的单轮脱管攻击不同,Siege 以广度优先的方式扩展对话,在每次轮次中产生多个利用先前响应部分合规性的对抗性提示。通过追踪这些逐步策略泄露并在后续查询中重新注入它们,Siege 展示了小幅度让步如何累积成为完全禁止的输出。在 JailbreakBench 数据集上的评估显示,Siege 在单轮多轮运行中对 GPT-3.5-turbo 成功率为 100%,对 GPT-4 成功率为 97%,使用比 Crescendo 或 GOAT 等基线更少的查询次数。这种树搜索方法提供了模型防护措施随对话轮次递减的深入见解,强调了对于语言模型来说,进行稳健的多轮测试程序的迫切性。