LLM2D

摘要

arXiv:2501.02629v2 通告类型: replace-cross 摘要：随着大型语言模型（LLMs）在各种应用中的部署，包括聊天机器人助手和代码生成，调整其行为以符合安全和伦理标准变得至关重要。然而，利用漏洞引发意外或有害输出的监禁攻击严重威胁着LLMs的安全。在本文中，我们介绍了Layer-AdvPatcher，这是一种新颖的方法，通过利用未学习策略来修补LLMs中的特定层，从而防御监禁攻击。我们的见解是，某些层在面对有害提示时倾向于生成肯定性标记。通过识别这些层并将它们暴露于生成更多有害数据的对抗性攻击中，可以理解它们固有的和多样的攻击漏洞。利用这些暴露的信息，然后“遗忘”这些问题，减少肯定性标记的影响，从而降低监禁攻击的风险，同时保持模型对良性查询的响应不变。我们在两种模型、四个基准数据集和多种最先进的监禁攻击上进行了广泛的实验，以证明我们方法的有效性。结果表明，与最新的防御方法相比，我们的框架在不牺牲对良性查询的实用性的情况下，减少了监禁攻击的有害性和成功率。我们的代码可以在以下地址公开获得：https://github.com/oyy2000/LayerAdvPatcher