LLM2D
AutoDAN-Turbo:一个终身代理,用于策略自我探索以突破LLMs
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
作者: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2410.05295v4

摘要

arXiv:2410.05295v4 安全公告类型: 替换-交叉 摘要: 在本文中,我们提出了一种名为AutoDAN-Turbo的黑盒越狱方法,该方法可以从头开始自动发现尽可能多的越狱策略,无需任何人工干预或预定义的范围(例如,指定的候选策略),并使用这些策略进行红队测试。结果表明,AutoDAN-Turbo在公共基准测试中显著优于基线方法,平均攻击成功率高出74.3%。值得注意的是,AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率达到了88.5%。此外,AutoDAN-Turbo是一个统一的框架,可以以即插即用的方式整合现有的人类设计的越狱策略。通过整合人类设计的策略,AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率甚至达到了93.4%。