LLM2D
Home
Arxiv
返回列表
将文本偏好转移到视觉-语言理解通过模型合并
Transferring Textual Preferences to Vision-Language Understanding through Model Merging
作者:
Chen-An Li, Tzu-Han Lin, Yun-Nung Chen, Hung-yi Lee
发布日期:
2/20/2025
arXiv ID:
oai:arXiv.org:2502.13487v1
摘要
arXiv:2502.13487v1 交叉公告类型:跨领域 摘要:大规模的视觉-语言模型(LVLMs)在各种多模态任务中表现卓越。然而,它们评估生成内容的能力仍然有限,使用偏好数据训练视觉-语言奖励模型(VLRMs)在计算上非常昂贵。本文探讨了一种无需训练的替代方案,通过将基于文本的奖励模型(RMs)与LVLMs合并来创建VLRMs。我们的方法表明,将这些模型集成在一起能够在LVLMs的评分和基于文本的RMs的基础上显著提升性能,提供了一种有效地将文本偏好融入LVLMs的方法。
查看原文
下载 PDF