摘要
多模态强化学习人类反馈 (RLHF) 通常在监督微调 (SFT) 阶段之后进行,以持续改进视觉语言模型 (VLM) 的理解能力。传统观点认为,在这一偏好对齐阶段,它优于持续的 SFT。本文观察到,多模态 RLHF 的内在价值在于其负监督,即被拒绝响应的 logits。因此,我们提出了一种新颖的负监督微调 (nSFT) 方法,该方法充分挖掘了这些信息。我们的 nSFT 解开了 RLHF 范式中的这种负监督,并通过简单的 SFT 损失持续地与 VLM 对齐。这比多模态 RLHF 更节省内存,后者严格要求 2 个(例如,DPO)或 4 个(例如,PPO)大型 VLM。通过跨不同数据集来源、基础 VLM 和评估指标与各种多模态 RLHF 方法进行比较,严格证明了 nSFT 的有效性。此外,还提供了丰富的消融实验来支持我们的假设。我们希望本文能够激励进一步的研究,以正确地对齐大型视觉语言模型。