摘要
arXiv:2502.19820v3 安全声明类型: replace-cross
摘要:随着大型语言模型越来越多地融入实际应用,确保AI安全变得至关重要。一个关键挑战是脱管攻击,即敌对提示绕过内置的安全措施以激发有害的禁止输出。受到心理学中途进门原则的启发,我们介绍了FITD,一种新颖的多回合脱管攻击方法,利用了一个现象,即初始的小规模承诺降低了对更大或更不道德的侵犯的抵抗。我们的方法通过中间桥接提示逐步提升用户查询的恶意意图,并通过自身引导模型的响应以诱导有毒的回复。在两个脱管攻击基准上的广泛实验结果显示,FITD 在七个广泛使用模型上实现了平均每回合攻击成功率94%,超过了现有最先进的方法。此外,我们还深入分析了LLM自我腐蚀,强调了当前对齐策略中的漏洞,并强调了多回合交互中固有的风险。代码可在 https://github.com/Jinxiaolong1129/Foot-in-the-door-Jailbreak 获取。