摘要
尽管大型语言模型 (LLMs) 因其卓越的能力而被广泛应用,但已被证明容易受到后门攻击。这类攻击通过对训练样本进行中毒和全参数微调,在 LLMs 中引入有针对性的漏洞。然而,这种后门攻击的局限性在于,它们需要大量的计算资源,特别是随着 LLMs 规模的扩大。此外,参数高效微调 (PEFT) 提供了一种替代方案,但受限的参数更新可能会阻碍触发器与目标标签的对齐。在本研究中,我们首先验证了使用 PEFT 的后门攻击在实现可行性能方面可能遇到挑战。为了解决这些问题并提高使用 PEFT 的后门攻击的有效性,我们提出了一种基于对比知识蒸馏的从弱到强的后门攻击算法 (W2SAttack)。具体来说,我们通过全参数微调对小型语言模型进行中毒,使其充当教师模型。然后,教师模型通过对比知识蒸馏将后门隐蔽地转移到大型学生模型,该蒸馏方法采用 PEFT。理论分析表明,W2SAttack 有可能增强后门攻击的有效性。我们证明了 W2SAttack 在针对四种语言模型、四种后门攻击算法和两种不同架构的教师模型的分类任务上的优越性能。实验结果表明,针对 PEFT 的后门攻击成功率接近 100%。