LLM2D
LLMs可以是危险的推理者:基于分析的大型语言模型脱狱攻击
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models
作者: Shi Lin, Hongming Yang, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2407.16205v4

摘要

arXiv:2407.16205v4 安全公告类型: 替换-交叉 摘要:大型语言模型(LLMs)的迅速发展带来了各个任务上的显著进步。然而,尽管取得了这些成就,LLMs 仍然存在固有的安全漏洞,尤其是在面对 Jailbreak 攻击时更为明显。现有的 Jailbreak 方法存在两大主要局限:依赖复杂的提示工程和迭代优化,这导致攻击成功率(ASR)和攻击效率(AE)较低。在此工作中,我们提出了一种高效的 Jailbreak 攻击方法,基于分析的 Jailbreak (ABJ),该方法利用了 LLM 的高级推理能力,使其能够在复杂推理过程中自主生成有害内容,揭示其潜在的安全漏洞。我们在各种开源和闭源 LLM 上进行了全面实验。特别是,ABJ 在所有目标 LLM 中实现了高 ASR(GPT-4o-2024-11-20 的 ASR 为 82.1%,AE 也尤为出色),展示了其卓越的攻击效果、可迁移性和效率。我们的研究结果强调了优先并改进 LLM 安全性的紧迫需求,以减轻滥用风险。