LLM2D
TA-Cleaner:一种针对多模态对比学习的细粒度文本对齐后门防御策略
TA-Cleaner: A Fine-grained Text Alignment Backdoor Defense Strategy for Multimodal Contrastive Learning
作者: Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17601v1

摘要

用于多模态对比学习的预训练大型模型(如 CLIP)在业界被广泛认为极易受到数据中毒后门攻击。这给下游模型训练带来了重大风险。为了应对这些潜在威胁,与使用增强数据重新训练大型模型相比,微调提供了一种更简单、更有效的防御选择。在监督学习领域,微调防御策略可以实现出色的防御性能。然而,在无监督和半监督领域,我们发现当 CLIP 面临一些复杂的攻击技术时,现有的微调防御策略 CleanCLIP 在防御性能方面存在一些局限性。其文本增强中的同义词替换不足以增强文本特征空间。为了弥补这一弱点,我们通过提出一种细粒度的文本对齐清理器(TA-Cleaner)来切断后门触发器的特征连接,从而对其进行改进。我们在 CleanCLIP 的每个 epoch 随机选择一些样本进行正负子文本生成,并将子文本与图像对齐,以增强文本自监督。我们评估了 TA-Cleaner 对六种攻击算法的有效性,并在 ImageNet1K 上进行了全面的零样本分类测试。我们的实验结果表明,TA-Cleaner 在基于微调的防御技术中实现了最先进的防御性能。即使面对新型攻击技术 BadCLIP,我们的 TA-Cleaner 也优于 CleanCLIP,将 Top-1 和 Top-10 的 ASR 分别降低了 52.02% 和 63.88%。