LLM2D

摘要

arXiv:2503.10619v3 通告类型: 更新摘要: 我们提出了Siege，这是一种多轮对抗框架，从树搜索的角度建模了大型语言模型（LLM）安全性的逐渐侵蚀。与依赖于一个精心设计的提示的单轮脱管攻击不同，Siege 以广度优先的方式扩展对话，在每次轮次中产生多个利用先前响应部分合规性的对抗性提示。通过追踪这些逐步策略泄露并在后续查询中重新注入它们，Siege 展示了小幅度让步如何累积成为完全禁止的输出。在 JailbreakBench 数据集上的评估显示，Siege 在单轮多轮运行中对 GPT-3.5-turbo 成功率为 100%，对 GPT-4 成功率为 97%，使用比 Crescendo 或 GOAT 等基线更少的查询次数。这种树搜索方法提供了模型防护措施随对话轮次递减的深入见解，强调了对于语言模型来说，进行稳健的多轮测试程序的迫切性。