摘要
多模态对比学习利用各种数据模态来创建高质量的特征,但其对互联网上大量数据源的依赖使其容易受到后门攻击。这些攻击在训练过程中插入恶意行为,这些行为在推理过程中被特定触发器激活,构成重大的安全风险。尽管通过微调来减少此类攻击的恶意影响的现有对策,但这些防御措施通常需要大量的训练时间并降低干净的准确性。在本研究中,我们提出了一种使用机器遗忘概念来防御后门威胁的有效防御机制。这包括战略性地创建一小部分中毒样本,以帮助模型快速遗忘后门漏洞,称为遗忘后门威胁 (UBT)。我们专门使用过拟合训练来改进后门捷径并准确地检测潜在中毒数据集中可疑样本。然后,我们从可疑样本中选择较少的遗忘样本以进行快速遗忘,以消除后门效应,从而提高后门防御效率。在后门遗忘过程中,我们提出了一种新颖的基于令牌的部分遗忘训练机制。这种技术侧重于模型受损的元素,分离后门相关性,同时保持模型的整体完整性。大量的实验结果表明,我们的方法有效地防御了 CLIP 模型中的各种后门攻击方法。与 SoTA 后门防御方法相比,UBT 实现了最低的攻击成功率,同时保持了模型的高干净准确率(攻击成功率降低了 19%,而干净准确率提高了 2.57%)。