摘要
参数高效微调(PEFT)已成为大型语言模型的关键训练策略。然而,其对较少可训练参数的依赖带来了安全风险,例如任务无关的后门。尽管这些后门对广泛任务的影响严重,但在PEFT背景下,尚无有效的防御解决方案来应对任务无关的后门。在本研究中,我们提出了Obliviate,一种可与PEFT集成的后门防御方法。我们开发了两种技术,旨在放大PEFT层中的良性神经元,并惩罚触发词的影响。我们在三种主要的PEFT架构上的评估表明,我们的方法能显著降低最先进的任务无关后门的攻击成功率(83.6%$\downarrow$)。此外,我们的方法对任务特定后门和适应性攻击表现出强大的防御能力。源代码将在https://github.com/obliviateARR/Obliviate获取。