LLM2D

摘要

arXiv:2503.03122v3 宣告类型: replace-cross 摘要：多模态奖励模型（MM-RMs）对于使大型语言模型（LLMs）与人类偏好保持一致至关重要，特别是在LLMs越来越多地与多模态数据进行交互的情况下。然而，我们发现，现有的数据集训练出的MM-RMs往往难以泛化到分布外数据，因为它们依赖于单一模态的伪相关性，主要是训练分布中的纯文本捷径，这使得它们无法利用真实的多模态奖励函数。为了解决这个问题，我们介绍了一种意识捷径的MM-RM学习算法，该算法通过动态调整训练样本的权重，将分布转向更好的多模态理解，并减少对单一模态伪相关性的依赖，从而缓解这一问题。我们的实验表明，在泛化能力、下游任务表现和可扩展性方面取得了显著改进，建立了更加稳健的多模态奖励建模框架。