LLM2D

摘要

用于多模态对比学习的预训练大型模型（如 CLIP）在业界被广泛认为极易受到数据中毒后门攻击。这给下游模型训练带来了重大风险。为了应对这些潜在威胁，与使用增强数据重新训练大型模型相比，微调提供了一种更简单、更有效的防御选择。在监督学习领域，微调防御策略可以实现出色的防御性能。然而，在无监督和半监督领域，我们发现当 CLIP 面临一些复杂的攻击技术时，现有的微调防御策略 CleanCLIP 在防御性能方面存在一些局限性。其文本增强中的同义词替换不足以增强文本特征空间。为了弥补这一弱点，我们通过提出一种细粒度的文本对齐清理器（TA-Cleaner）来切断后门触发器的特征连接，从而对其进行改进。我们在 CleanCLIP 的每个 epoch 随机选择一些样本进行正负子文本生成，并将子文本与图像对齐，以增强文本自监督。我们评估了 TA-Cleaner 对六种攻击算法的有效性，并在 ImageNet1K 上进行了全面的零样本分类测试。我们的实验结果表明，TA-Cleaner 在基于微调的防御技术中实现了最先进的防御性能。即使面对新型攻击技术 BadCLIP，我们的 TA-Cleaner 也优于 CleanCLIP，将 Top-1 和 Top-10 的 ASR 分别降低了 52.02% 和 63.88%。