摘要
arXiv:2412.08755v4 通告类型: replace-cross
摘要:后门攻击通过在输入中嵌入隐藏触发器,导致模型错误分类为目标标签,构成了一个关键威胁。尽管大量的研究集中在通过权重微调来减轻这些攻击对物体识别模型的影响,但很少有人直接关注检测已被植入后门的数据样本。由于在训练中使用了庞大的数据集,手工检查隐藏的后门触发器是不切实际的,即使是最先进的防御机制也无法完全抵消其影响。为了解决这一问题,我们提出了一种开创性的方法,在训练和推理期间检测未见的后门攻击图像。利用提示调优在视觉语言模型(VLMs)中的成功经验,我们的方法训练可学习的文本提示,以区分干净图像和包含隐藏后门触发器的图像。实验结果展示了该方法的卓越效果,在检测未见的后门触发器方面,取得了令人印象深刻的平均准确率为86%的成绩,两个知名的检测数据集上均达到新标准,确立了后门防御的新标准。