LLM2D
对抗性提示蒸馏用于视觉语言模型
Adversarial Prompt Distillation for Vision-Language Models
作者: Lin Luo, Xin Wang, Bojia Zi, Shihao Zhao, Xingjun Ma
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15244v1

摘要

大型预训练视觉-语言模型(VLMs),例如对比语言-图像预训练模型(CLIP),已被证明容易受到对抗性攻击,这引发了人们对其在自动驾驶和医疗诊断等安全关键场景中部署的担忧。提高预训练VLMs鲁棒性的一种有前景的方法是对抗性提示微调(APT),它结合了对抗性训练和提示微调。然而,现有的APT方法大多是单模态方法,只为视觉或文本模态设计提示,这限制了它们在鲁棒性或干净精度方面的有效性。在这项工作中,我们提出了一种名为对抗性提示蒸馏(APD)的新方法,它结合了APT和知识蒸馏来提高CLIP的对抗鲁棒性。具体来说,APD是一种双模态方法,它为视觉和文本模态都添加提示,同时利用干净预训练的教师CLIP模型来蒸馏和提升学生CLIP模型在下游任务上的性能。在多个基准数据集上的大量实验表明,我们的APD方法在自然性能和对抗性能方面都优于当前最先进的APT方法。我们的APD方法的有效性验证了使用非鲁棒教师来提高VLMs泛化能力和鲁棒性的可能性。