LLM2D

摘要

arXiv:2410.20971v2 黑盒防御类型：替换交叉摘要：在本文中，我们专注于针对VLMs的隐私突破攻击的黑盒防御。现有的黑盒防御方法要么是单模态的，要么是双模态的。单模态方法通过增强VLM的视觉或语言模块，而双模态方法则通过文本-图像表示对齐来增强模型的鲁棒性。然而，这些方法存在两个局限性：1）它们无法充分利用跨模态信息，或2）它们在良性输入上的性能会下降。为了解决这些局限性，我们提出了一种名为BlueSuffix的新颖的蓝队方法，该方法可以在黑盒设置下防御目标VLM免受隐私突破攻击，而不牺牲其性能。BlueSuffix包括三个关键组件：1）针对隐私突破图像的视觉净化器，2）针对隐私突破文本的文本净化器，3）使用强化微调的蓝队后缀生成器，以增强跨模态鲁棒性。通过在四个VLM（LLaVA、MiniGPT-4、InstructionBLIP和Gemini）和四个安全性基准（有害指令、AdvBench、MM-SafetyBench和RedTeam-2K）上进行实证研究，我们展示了BlueSuffix相较于基线防御方法具有显著的优势。我们的BlueSuffix为防御VLMs免受隐私突破攻击的方向打开了一个有前景的途径。代码可在https://github.com/Vinsonzyh/BlueSuffix获取。