LLM2D
层级自我暴露和补丁:针对 Jailbreak 攻击的正面标记缓解方法
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense
作者: Yang Ouyang, Hengrui Gu, Shuhang Lin, Wenyue Hua, Jie Peng, Bhavya Kailkhura, Meijun Gao, Tianlong Chen, Kaixiong Zhou
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2501.02629v2

摘要

arXiv:2501.02629v2 通告类型: replace-cross 摘要:随着大型语言模型(LLMs)在各种应用中的部署,包括聊天机器人助手和代码生成,调整其行为以符合安全和伦理标准变得至关重要。然而,利用漏洞引发意外或有害输出的监禁攻击严重威胁着LLMs的安全。在本文中,我们介绍了Layer-AdvPatcher,这是一种新颖的方法,通过利用未学习策略来修补LLMs中的特定层,从而防御监禁攻击。我们的见解是,某些层在面对有害提示时倾向于生成肯定性标记。通过识别这些层并将它们暴露于生成更多有害数据的对抗性攻击中,可以理解它们固有的和多样的攻击漏洞。利用这些暴露的信息,然后“遗忘”这些问题,减少肯定性标记的影响,从而降低监禁攻击的风险,同时保持模型对良性查询的响应不变。我们在两种模型、四个基准数据集和多种最先进的监禁攻击上进行了广泛的实验,以证明我们方法的有效性。结果表明,与最新的防御方法相比,我们的框架在不牺牲对良性查询的实用性的情况下,减少了监禁攻击的有害性和成功率。我们的代码可以在以下地址公开获得:https://github.com/oyy2000/LayerAdvPatcher