LLM2D
蓝后缀:针对 Jailbreak 攻击的强化蓝队方法用于视觉-语言模型
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
作者: Yunhan Zhao, Xiang Zheng, Lin Luo, Yige Li, Xingjun Ma, Yu-Gang Jiang
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2410.20971v2

摘要

arXiv:2410.20971v2 黑盒防御类型:替换交叉 摘要:在本文中,我们专注于针对VLMs的隐私突破攻击的黑盒防御。现有的黑盒防御方法要么是单模态的,要么是双模态的。单模态方法通过增强VLM的视觉或语言模块,而双模态方法则通过文本-图像表示对齐来增强模型的鲁棒性。然而,这些方法存在两个局限性:1)它们无法充分利用跨模态信息,或2)它们在良性输入上的性能会下降。为了解决这些局限性,我们提出了一种名为BlueSuffix的新颖的蓝队方法,该方法可以在黑盒设置下防御目标VLM免受隐私突破攻击,而不牺牲其性能。BlueSuffix包括三个关键组件:1)针对隐私突破图像的视觉净化器,2)针对隐私突破文本的文本净化器,3)使用强化微调的蓝队后缀生成器,以增强跨模态鲁棒性。通过在四个VLM(LLaVA、MiniGPT-4、InstructionBLIP和Gemini)和四个安全性基准(有害指令、AdvBench、MM-SafetyBench和RedTeam-2K)上进行实证研究,我们展示了BlueSuffix相较于基线防御方法具有显著的优势。我们的BlueSuffix为防御VLMs免受隐私突破攻击的方向打开了一个有前景的途径。代码可在https://github.com/Vinsonzyh/BlueSuffix获取。