LLM2D

摘要

arXiv:2411.01703v2 安全类型：替换-跨越摘要：多模态大语言模型（MLLMs）在视觉语言理解方面取得了革命性的进步，但仍然容易受到多模态监狱突破攻击的威胁，其中恶意的输入精心设计以引发有害或不恰当的响应。我们提出了一种名为UniGuard的新颖的多模态安全护栏，它同时考虑单模态和跨模态的有害信号。UniGuard训练一个多模态的护栏，以最小化在有毒语料库中生成有害响应的可能性。该护栏可以在推理过程中无缝应用于任何输入提示，同时最小化计算成本。广泛的实验表明，UniGuard在多种模态、攻击策略以及多种最先进的MLLMs（包括LLaVA、Gemini Pro、GPT-4o、MiniGPT-4和InstructBLIP）上具有良好的泛化能力。值得注意的是，这一稳健的防御机制保持了模型的整体视觉语言理解能力。