摘要
arXiv:2410.05346v3 宣布类型:替换-交叉
摘要:由于其多模态能力,视觉语言模型(VLMs)在现实场景中发现了众多重要的应用。然而,最近的研究揭示了VLMs对基于图像的对抗攻击的脆弱性。传统的目标导向的对抗攻击需要特定的目标和标签,这限制了它们的实际影响。我们提出了一种名为AnyAttack的自监督框架,通过一种新颖的基础模型方法超越了传统攻击的限制。通过对大规模的LAION-400M数据集进行无标签预训练,AnyAttack实现了前所未有的灵活性——能够将任何图像转化为针对不同VLMs任何所需输出的攻击向量。这种方法从根本上改变了威胁格局,提升了前所未有的对抗能力的可访问性。我们在五个开源的VLMs(CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4)上的广泛验证表明,AnyAttack在多样化的多模态任务中表现出色。更令人担忧的是,AnyAttack无缝转移到包括Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商业系统,揭示了一个系统性的脆弱性,需要立即引起关注。