LLM2D

摘要

arXiv:2411.15244v2 公告类型: replace-cross 摘要: 大型预训练视觉-语言模型（VLMs），如对比语言-图像预训练（CLIP），已被证明对 adversarial 攻击易受影响，这引起了人们对它们在自动驾驶和医学诊断等关键安全应用中部署的担忧。增强预训练 VLMs 的一种有前途的方法是对抗性提示调优（APT），它在提示调优过程中应用对抗性训练。然而，现有的 APT 方法大多是单模态方法，仅为视觉或文本模态设计提示，这限制了它们在鲁棒性或干净准确度方面的有效性。在本文中，我们提出了一种双模态知识蒸馏框架——对抗性提示蒸馏（APD），通过将其与多模态知识转移集成来增强 APT。APD 同时优化视觉和文本模态的提示，同时从干净的预训练教师 CLIP 模型中蒸馏知识。在多个基准数据集上的广泛实验表明，我们的 APD 方法在对抗鲁棒性和干净准确度两个方面都优于当前最先进的 APT 方法。APD 的有效性也验证了使用非鲁棒教师模型来提高微调 VLMs 的泛化能力和鲁棒性的可能性。