LLM2D
UniGuard: 针对多模态大型语言模型 Jailbreak 攻击的通用安全护栏
UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models
作者: Sejoon Oh, Yiqiao Jin, Megha Sharma, Donghyun Kim, Eric Ma, Gaurav Verma, Srijan Kumar
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2411.01703v2

摘要

arXiv:2411.01703v2 安全类型:替换-跨越 摘要:多模态大语言模型(MLLMs)在视觉语言理解方面取得了革命性的进步,但仍然容易受到多模态监狱突破攻击的威胁,其中恶意的输入精心设计以引发有害或不恰当的响应。我们提出了一种名为UniGuard的新颖的多模态安全护栏,它同时考虑单模态和跨模态的有害信号。UniGuard训练一个多模态的护栏,以最小化在有毒语料库中生成有害响应的可能性。该护栏可以在推理过程中无缝应用于任何输入提示,同时最小化计算成本。广泛的实验表明,UniGuard在多种模态、攻击策略以及多种最先进的MLLMs(包括LLaVA、Gemini Pro、GPT-4o、MiniGPT-4和InstructBLIP)上具有良好的泛化能力。值得注意的是,这一稳健的防御机制保持了模型的整体视觉语言理解能力。