摘要
arXiv:2503.03122v3 宣告类型: replace-cross
摘要:多模态奖励模型(MM-RMs)对于使大型语言模型(LLMs)与人类偏好保持一致至关重要,特别是在LLMs越来越多地与多模态数据进行交互的情况下。然而,我们发现,现有的数据集训练出的MM-RMs往往难以泛化到分布外数据,因为它们依赖于单一模态的伪相关性,主要是训练分布中的纯文本捷径,这使得它们无法利用真实的多模态奖励函数。为了解决这个问题,我们介绍了一种意识捷径的MM-RM学习算法,该算法通过动态调整训练样本的权重,将分布转向更好的多模态理解,并减少对单一模态伪相关性的依赖,从而缓解这一问题。我们的实验表明,在泛化能力、下游任务表现和可扩展性方面取得了显著改进,建立了更加稳健的多模态奖励建模框架。