LLM2D

摘要

预训练用于多模态对比学习的大型模型（如CLIP）已被业界广泛认为极易受到数据投毒后门攻击，这给下游模型训练带来了重大风险。与使用增强数据重新训练大型模型相比，微调提供了一种更简单、更高效的防御选择。在监督学习领域，微调防御策略可以实现优异的防御性能。然而，在无监督和半监督领域，我们发现当CLIP面临一些复杂的攻击技术时，现有的微调防御策略CleanCLIP在防御性能方面存在一些局限性。其文本增强的同义词替换不足以增强文本特征空间。为了弥补这一弱点，我们提出了一种细粒度的文本对齐清理器（TA-Cleaner）来切断后门触发器的特征连接，从而对其进行改进。我们在CleanCLIP的每个epoch随机选择少量样本进行正负子文本生成，并将子文本与图像对齐以加强文本自监督。我们评估了我们的TA-Cleaner针对六种攻击算法的有效性，并在ImageNet1K上进行了全面的零样本分类测试。我们的实验结果表明，在基于微调的防御技术中，TA-Cleaner实现了最先进的防御能力。即使面对新颖的攻击技术BadCLIP，我们的TA-Cleaner也优于CleanCLIP，将Top-1和Top-10的ASR分别降低了52.02%和63.88%。