LLM2D

摘要

arXiv:2407.16205v4 安全公告类型: 替换-交叉摘要：大型语言模型（LLMs）的迅速发展带来了各个任务上的显著进步。然而，尽管取得了这些成就，LLMs 仍然存在固有的安全漏洞，尤其是在面对 Jailbreak 攻击时更为明显。现有的 Jailbreak 方法存在两大主要局限：依赖复杂的提示工程和迭代优化，这导致攻击成功率（ASR）和攻击效率（AE）较低。在此工作中，我们提出了一种高效的 Jailbreak 攻击方法，基于分析的 Jailbreak (ABJ)，该方法利用了 LLM 的高级推理能力，使其能够在复杂推理过程中自主生成有害内容，揭示其潜在的安全漏洞。我们在各种开源和闭源 LLM 上进行了全面实验。特别是，ABJ 在所有目标 LLM 中实现了高 ASR（GPT-4o-2024-11-20 的 ASR 为 82.1%，AE 也尤为出色），展示了其卓越的攻击效果、可迁移性和效率。我们的研究结果强调了优先并改进 LLM 安全性的紧迫需求，以减轻滥用风险。