LLM2D
基于VLMs和软奖励的测试时 reasoning 通过视觉人类偏好
Test-Time Reasoning Through Visual Human Preferences with VLMs and Soft Rewards
作者: Alexander Gambashidze, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.19948v1

摘要

arXiv:2503.19948v1 交叉公告类型 摘要:视觉语言模型(VLMs)能否有效捕捉人类的视觉偏好?本研究通过在测试时让VLMs思考偏好,并采用受到DeepSeek R1和OpenAI O1启发的强化学习方法来应对这一问题。利用如ImageReward和Human Preference Score v2(HPSv2)等数据集,我们的模型在ImageReward测试集(使用ImageReward官方划分进行训练)上的准确率为64.9%,在HPSv2上的准确率为65.4%(训练数据约占其数据量的25%)。这些结果与传统的基于编码器的模型相匹配,但提供了透明的推理和更强的泛化能力。这种方法不仅允许使用丰富的VLM世界知识,还能利用其潜在的思考能力,产生可解释的结果,帮助决策过程。通过证明当前VLMs可以合理地捕捉人类视觉偏好,我们引入了高效柔性奖励策略,用于图像排序,在图像排名上优于简单的选择或评分方法。这种推理能力使VLMs能够对任意图像进行排名——无论其纵横比或复杂性如何——从而可能增强视觉偏好优化的有效性。通过减少对大量标注的需求,同时提高奖励泛化能力和可解释性,我们的发现可以成为进一步增强文本到视觉模型的重要里程碑。