LLM2D

摘要

arXiv:2410.05346v3 宣布类型：替换-交叉摘要：由于其多模态能力，视觉语言模型（VLMs）在现实场景中发现了众多重要的应用。然而，最近的研究揭示了VLMs对基于图像的对抗攻击的脆弱性。传统的目标导向的对抗攻击需要特定的目标和标签，这限制了它们的实际影响。我们提出了一种名为AnyAttack的自监督框架，通过一种新颖的基础模型方法超越了传统攻击的限制。通过对大规模的LAION-400M数据集进行无标签预训练，AnyAttack实现了前所未有的灵活性——能够将任何图像转化为针对不同VLMs任何所需输出的攻击向量。这种方法从根本上改变了威胁格局，提升了前所未有的对抗能力的可访问性。我们在五个开源的VLMs（CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4）上的广泛验证表明，AnyAttack在多样化的多模态任务中表现出色。更令人担忧的是，AnyAttack无缝转移到包括Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商业系统，揭示了一个系统性的脆弱性，需要立即引起关注。