摘要
尽管大型语言模型 (LLM) 因其卓越的能力而被广泛应用,但它们已被证明容易受到后门攻击。这些攻击通过对训练样本进行中毒和全参数微调,将目标漏洞引入 LLM。然而,这种后门攻击受到限制,因为它们需要大量的计算资源,尤其是在 LLM 的规模不断增大的情况下。此外,参数高效微调 (PEFT) 提供了一种替代方案,但受限的参数更新可能会阻碍触发器与目标标签的对齐。在本研究中,我们首先验证了使用 PEFT 的后门攻击在实现可行性能方面可能会遇到挑战。为了解决这些问题并提高使用 PEFT 的后门攻击的有效性,我们提出了一种基于特征对齐增强知识蒸馏的从弱到强的后门攻击算法 (W2SAttack)。具体来说,我们通过全参数微调对小型语言模型进行中毒,使其作为教师模型。然后,教师模型通过特征对齐增强知识蒸馏将后门秘密地转移到大型学生模型,该方法采用 PEFT。理论分析表明,W2SAttack 有可能增强后门攻击的有效性。我们在四个语言模型、四种后门攻击算法和两种不同的教师模型架构上演示了 W2SAttack 在分类任务中的优越性能。实验结果表明,针对 PEFT 的后门攻击的成功率接近 100%。