LLM2D
将文本偏好转移到视觉-语言理解通过模型合并
Transferring Textual Preferences to Vision-Language Understanding through Model Merging
作者: Chen-An Li, Tzu-Han Lin, Yun-Nung Chen, Hung-yi Lee
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13487v1

摘要

arXiv:2502.13487v1 交叉公告类型:跨领域 摘要:大规模的视觉-语言模型(LVLMs)在各种多模态任务中表现卓越。然而,它们评估生成内容的能力仍然有限,使用偏好数据训练视觉-语言奖励模型(VLRMs)在计算上非常昂贵。本文探讨了一种无需训练的替代方案,通过将基于文本的奖励模型(RMs)与LVLMs合并来创建VLRMs。我们的方法表明,将这些模型集成在一起能够在LVLMs的评分和基于文本的RMs的基础上显著提升性能,提供了一种有效地将文本偏好融入LVLMs的方法。