摘要
arXiv:2411.01703v2 安全类型:替换-跨越
摘要:多模态大语言模型(MLLMs)在视觉语言理解方面取得了革命性的进步,但仍然容易受到多模态监狱突破攻击的威胁,其中恶意的输入精心设计以引发有害或不恰当的响应。我们提出了一种名为UniGuard的新颖的多模态安全护栏,它同时考虑单模态和跨模态的有害信号。UniGuard训练一个多模态的护栏,以最小化在有毒语料库中生成有害响应的可能性。该护栏可以在推理过程中无缝应用于任何输入提示,同时最小化计算成本。广泛的实验表明,UniGuard在多种模态、攻击策略以及多种最先进的MLLMs(包括LLaVA、Gemini Pro、GPT-4o、MiniGPT-4和InstructBLIP)上具有良好的泛化能力。值得注意的是,这一稳健的防御机制保持了模型的整体视觉语言理解能力。