LLM2D

摘要

视觉语言模型 (VLMs) 的安全对齐能力，与它的 LLM 主干相比，由于视觉模块的集成而容易退化。本文研究了这种现象，称为“安全对齐退化”，并表明这种挑战源于在 VLM 中引入视觉模态时出现的表征差距。具体来说，我们表明，多模态输入的表征偏离了纯文本输入的表征，而纯文本输入代表了 LLM 主干优化的分布。与此同时，最初在文本嵌入空间中开发的安全对齐能力无法成功地转移到这个新的多模态表征空间。为了减少安全对齐退化，我们引入了跨模态表征操作 (CMRM)，这是一种推理时表征干预方法，用于恢复 VLM 的 LLM 主干固有的安全对齐能力，同时保留 VLM 的功能能力。实证结果表明，我们的框架显著恢复了从 LLM 主干继承的对齐能力，对预训练 VLM 的流畅性和语言能力的影响最小，即使没有额外的训练。具体来说，LLaVA-7B 在多模态输入上的不安全率可以从 61.53% 降至 3.15%，仅通过推理时干预。