LLM2D
遗忘:在参数高效微调范式中消除与任务无关的后门
Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm
作者: Jaehan Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.14119v2

摘要

参数高效微调(PEFT)已成为大型语言模型的关键训练策略。然而,它对可训练参数数量的依赖带来了安全风险,例如任务无关的后门。尽管它们对各种任务有严重影响,但在 PEFT 的背景下,还没有有效的防御解决方案能够有效地抵御任务无关的后门。在本研究中,我们介绍了 Obliviate,一种可与 PEFT 集成的后门防御方法。我们开发了两种技术,旨在放大 PEFT 层中的良性神经元,并惩罚触发词的影响。我们对三种主要的 PEFT 架构进行的评估表明,我们的方法可以显着降低最先进的任务无关后门的攻击成功率(83.6%$\downarrow$)。此外,我们的方法对任务特定后门和自适应攻击表现出强大的防御能力。源代码可在 https://github.com/obliviateARR/Obliviate 获取。