LLM2D

摘要

arXiv:2410.05346v1 宣告类型: cross 摘要: 由于其多模态能力，视觉语言模型（VLMs）在实际应用场景中找到了许多重要应用。然而，最近的研究发现，VLMs 对基于图像的对抗攻击尤其易受攻击，尤其是那些能够操纵模型生成由攻击者指定有害内容的目标攻击图像。当前的攻击方法依赖于预定义的目标标签来创建目标导向的对抗攻击，这限制了它们在大规模鲁棒性评估中的可扩展性和适用性。在这篇论文中，我们提出了一种名为 AnyAttack 的自监督框架，该框架在无需标签监督的情况下生成针对 VLMs 的目标导向的对抗图像，使得任何图像都可以作为攻击的目标。为了解决现有方法需要标签监督的限制，我们引入了一种对比损失，用于在大量未标注图像数据集 LAION-400M 数据集上训练生成器，以生成目标导向的对抗噪声。这种大规模预训练赋予了我们的方法在各种 VLMs 上的强大迁移性。在五个主流开源 VLMs（CLIP、BLIP、BLIP2、InstructBLIP 和 MiniGPT-4）的三个多模态任务（图像-文本检索、多模态分类和图像字幕生成）上的广泛实验表明了我们攻击的有效性。此外，我们成功地将 AnyAttack 转移到了多个商用 VLMs，包括 Google 的 Gemini、Claude 的 Sonnet 和 Microsoft 的 Copilot。这些结果揭示了 VLMs 前所未有的风险，突显了有效对策的必要性。