LLM2D

摘要

arXiv:2504.10000v1 宣告类型: cross 摘要: 多模态大型语言模型（MLLMs）取得了显著进展，但其安全性对齐仍有限制。通常，当前的开源MLLMs依赖于其语言模块继承的安全性对齐来避免有害生成。然而，缺乏专门针对多模态输入的安全措施导致了对齐差距，使MLLMs对视觉领域的攻击，如文本排版操控变得脆弱。当前的方法通过利用精心设计的安全数据集来增强模型的防御能力，但这些高质量数据集中的特定知识或模式仍不清楚。通过对比实验，我们发现对齐差距主要源自数据分布偏差，而不是图像内容、响应质量或数据集的对比行为对提升多模态安全性贡献甚微。为了进一步调查这一点并确定提高MLLM安全性的重要因素，我们建议在一小部分良性指令遵循数据上微调MLLMs，并用简单的明确拒绝句替换响应。实验表明，在无需收集高质量恶意数据的情况下，只要微调集包含一定比例的拒绝数据，就可以显著提高模型安全性，这表明多模态预训练或指令微调期间安全性对齐并未丢失，而是被掩盖了。简单纠正潜在的数据偏差即可在视觉领域缩小安全性差距。