LLM2D
基于填充的脱管攻击:一种绕过LLM安全边界的新方法
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary
作者: Yakai Li, Jiekang Hu, Weiduan Sang, Luping Ma, Jing Xie, Weijuan Zhang, Aimin Yu, Shijie Zhao, Qingjia Huang, Qihang Zhou
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21038v1

摘要

arXiv:2504.21038v1 安全公告类型: 交叉 摘要:大型语言模型(LLMs)设计用于生成有益和安全的内容。然而,通常被称为“越狱”的对抗性攻击可以使它们的安全协议失效,促使LLMs生成有害内容或泄露敏感数据。因此,调查越狱方法对于暴露LLMs中的系统性脆弱性至关重要,最终将指导开发人员持续实施安全增强措施。在本文中,我们提出了一种新颖的越狱攻击方法,利用了LLMs的预输入功能,这是一种旨在增强模型输出约束的功能。与传统的越狱方法不同,所提出的攻击通过直接操纵后续令牌的概率分布,绕过了LLMs的安全机制,从而控制模型的输出。我们提出了两种攻击变体:静态预输入(SP),使用通用预输入文本;以及优化预输入(OP),通过迭代优化预输入文本以最大化攻击成功率。在AdvBench基准上对六种最新的LLM进行实验验证了我们方法的有效性,并且展示了当与现有的越狱方法结合使用时,其提高攻击成功率的能力。OP方法在某些模型上的攻击成功率高达99.82%,远超基线方法。本文介绍了一种新的LLMs越狱攻击方法,强调需要强大的内容验证机制来缓解预输入功能的对抗性利用。本文中使用的所有代码和数据都是公开的。