LLM2D

摘要

多模态强化学习人类反馈 (RLHF) 通常在监督微调 (SFT) 阶段之后进行，以持续改进视觉语言模型 (VLM) 的理解能力。传统观点认为，在这一偏好对齐阶段，它优于持续的 SFT。本文观察到，多模态 RLHF 的内在价值在于其负监督，即被拒绝响应的 logits。因此，我们提出了一种新颖的负监督微调 (nSFT) 方法，该方法充分挖掘了这些信息。我们的 nSFT 解开了 RLHF 范式中的这种负监督，并通过简单的 SFT 损失持续地与 VLM 对齐。这比多模态 RLHF 更节省内存，后者严格要求 2 个（例如，DPO）或 4 个（例如，PPO）大型 VLM。通过跨不同数据集来源、基础 VLM 和评估指标与各种多模态 RLHF 方法进行比较，严格证明了 nSFT 的有效性。此外，还提供了丰富的消融实验来支持我们的假设。我们希望本文能够激励进一步的研究，以正确地对齐大型视觉语言模型。