摘要
arXiv:2504.10000v1 宣告类型: cross
摘要: 多模态大型语言模型(MLLMs)取得了显著进展,但其安全性对齐仍有限制。通常,当前的开源MLLMs依赖于其语言模块继承的安全性对齐来避免有害生成。然而,缺乏专门针对多模态输入的安全措施导致了对齐差距,使MLLMs对视觉领域的攻击,如文本排版操控变得脆弱。当前的方法通过利用精心设计的安全数据集来增强模型的防御能力,但这些高质量数据集中的特定知识或模式仍不清楚。通过对比实验,我们发现对齐差距主要源自数据分布偏差,而不是图像内容、响应质量或数据集的对比行为对提升多模态安全性贡献甚微。为了进一步调查这一点并确定提高MLLM安全性的重要因素,我们建议在一小部分良性指令遵循数据上微调MLLMs,并用简单的明确拒绝句替换响应。实验表明,在无需收集高质量恶意数据的情况下,只要微调集包含一定比例的拒绝数据,就可以显著提高模型安全性,这表明多模态预训练或指令微调期间安全性对齐并未丢失,而是被掩盖了。简单纠正潜在的数据偏差即可在视觉领域缩小安全性差距。