LLM2D

摘要

arXiv:2502.13487v1 交叉公告类型：跨领域摘要：大规模的视觉-语言模型（LVLMs）在各种多模态任务中表现卓越。然而，它们评估生成内容的能力仍然有限，使用偏好数据训练视觉-语言奖励模型（VLRMs）在计算上非常昂贵。本文探讨了一种无需训练的替代方案，通过将基于文本的奖励模型（RMs）与LVLMs合并来创建VLRMs。我们的方法表明，将这些模型集成在一起能够在LVLMs的评分和基于文本的RMs的基础上显著提升性能，提供了一种有效地将文本偏好融入LVLMs的方法。