LLM2D

摘要

arXiv:2502.19820v3 安全声明类型: replace-cross 摘要：随着大型语言模型越来越多地融入实际应用，确保AI安全变得至关重要。一个关键挑战是脱管攻击，即敌对提示绕过内置的安全措施以激发有害的禁止输出。受到心理学中途进门原则的启发，我们介绍了FITD，一种新颖的多回合脱管攻击方法，利用了一个现象，即初始的小规模承诺降低了对更大或更不道德的侵犯的抵抗。我们的方法通过中间桥接提示逐步提升用户查询的恶意意图，并通过自身引导模型的响应以诱导有毒的回复。在两个脱管攻击基准上的广泛实验结果显示，FITD 在七个广泛使用模型上实现了平均每回合攻击成功率94%，超过了现有最先进的方法。此外，我们还深入分析了LLM自我腐蚀，强调了当前对齐策略中的漏洞，并强调了多回合交互中固有的风险。代码可在 https://github.com/Jinxiaolong1129/Foot-in-the-door-Jailbreak 获取。