LLM2D

摘要

本文提出了一种名为AutoDAN-Turbo的黑盒越狱方法，该方法可以自动发现尽可能多的越狱策略，无需任何人工干预或预定义范围（例如，指定的候选策略），并将其用于红队对抗测试。结果表明，AutoDAN-Turbo显著优于基线方法，在公共基准测试中平均攻击成功率提高了74.3%。值得注意的是，AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率达到了88.5%。此外，AutoDAN-Turbo是一个统一的框架，可以即插即用地整合现有人工设计的越狱策略。通过整合人工设计的策略，AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率甚至可以达到93.4%。