LLM2D

摘要

参数高效微调（PEFT）已成为大型语言模型的关键训练策略。然而，它对可训练参数数量的依赖带来了安全风险，例如任务无关的后门。尽管这些后门对各种任务有严重影响，但在 PEFT 的背景下，还没有有效的防御解决方案可以有效地对抗任务无关的后门。在本研究中，我们介绍了 Obliviate，一种可与 PEFT 集成的后门防御方法。我们开发了两种技术，旨在放大 PEFT 层中的良性神经元，并惩罚触发词的影响。我们在三个主要 PEFT 架构上的评估表明，我们的方法可以显著降低最先进的任务无关后门的攻击成功率（83.6%$\downarrow$）。此外，我们的方法对特定任务后门和自适应攻击表现出强大的防御能力。源代码将在 https://github.com/obliviateARR/Obliviate 获得。