摘要
预训练用于多模态对比学习的大型模型(如CLIP)已被业界广泛认为极易受到数据投毒后门攻击,这给下游模型训练带来了重大风险。与使用增强数据重新训练大型模型相比,微调提供了一种更简单、更高效的防御选择。在监督学习领域,微调防御策略可以实现优异的防御性能。然而,在无监督和半监督领域,我们发现当CLIP面临一些复杂的攻击技术时,现有的微调防御策略CleanCLIP在防御性能方面存在一些局限性。其文本增强的同义词替换不足以增强文本特征空间。为了弥补这一弱点,我们提出了一种细粒度的文本对齐清理器(TA-Cleaner)来切断后门触发器的特征连接,从而对其进行改进。我们在CleanCLIP的每个epoch随机选择少量样本进行正负子文本生成,并将子文本与图像对齐以加强文本自监督。我们评估了我们的TA-Cleaner针对六种攻击算法的有效性,并在ImageNet1K上进行了全面的零样本分类测试。我们的实验结果表明,在基于微调的防御技术中,TA-Cleaner实现了最先进的防御能力。即使面对新颖的攻击技术BadCLIP,我们的TA-Cleaner也优于CleanCLIP,将Top-1和Top-10的ASR分别降低了52.02%和63.88%。