LLM2D
AutoDAN-Turbo:一个用于策略自我探索以突破大型语言模型限制的终身代理
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
作者: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05295v1

摘要

本文提出了 AutoDAN-Turbo,一种黑盒越狱方法,它能够从头开始自动发现尽可能多的越狱策略,无需任何人工干预或预定义范围(例如,指定候选策略),并将其用于红队攻击。结果表明,AutoDAN-Turbo 能够显著优于基线方法,在公开基准测试中平均攻击成功率提高了 74.3%。值得注意的是,AutoDAN-Turbo 在 GPT-4-1106-turbo 上实现了 88.5% 的攻击成功率。此外,AutoDAN-Turbo 是一个统一的框架,可以以即插即用方式整合现有的由人工设计的越狱策略。通过整合人工设计的策略,AutoDAN-Turbo 甚至可以在 GPT-4-1106-turbo 上实现更高的攻击成功率,达到 93.4%。