LLM2D
持续性监督微调与多模态强化学习人类反馈相匹配,并使用负面监督
Continual SFT Matches Multimodal RLHF with Negative Supervision
作者: Ke Zhu, Yu Wang, Yanpeng Sun, Qiang Chen, Jiangjiang Liu, Gang Zhang, Jingdong Wang
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14797v1

摘要

多模态强化学习人类反馈 (RLHF) 通常在监督微调 (SFT) 阶段之后进行,以持续改进视觉语言模型 (VLM) 的理解能力。传统观点认为,在这一偏好对齐阶段,它优于持续的 SFT。本文观察到,多模态 RLHF 的内在价值在于其负监督,即被拒绝响应的 logits。因此,我们提出了一种新颖的负监督微调 (nSFT) 方法,该方法充分挖掘了这些信息。我们的 nSFT 解开了 RLHF 范式中的这种负监督,并通过简单的 SFT 损失持续地与 VLM 对齐。这比多模态 RLHF 更节省内存,后者严格要求 2 个(例如,DPO)或 4 个(例如,PPO)大型 VLM。通过跨不同数据集来源、基础 VLM 和评估指标与各种多模态 RLHF 方法进行比较,严格证明了 nSFT 的有效性。此外,还提供了丰富的消融实验来支持我们的假设。我们希望本文能够激励进一步的研究,以正确地对齐大型视觉语言模型。