摘要
arXiv:2503.19948v1 交叉公告类型
摘要:视觉语言模型(VLMs)能否有效捕捉人类的视觉偏好?本研究通过在测试时让VLMs思考偏好,并采用受到DeepSeek R1和OpenAI O1启发的强化学习方法来应对这一问题。利用如ImageReward和Human Preference Score v2(HPSv2)等数据集,我们的模型在ImageReward测试集(使用ImageReward官方划分进行训练)上的准确率为64.9%,在HPSv2上的准确率为65.4%(训练数据约占其数据量的25%)。这些结果与传统的基于编码器的模型相匹配,但提供了透明的推理和更强的泛化能力。这种方法不仅允许使用丰富的VLM世界知识,还能利用其潜在的思考能力,产生可解释的结果,帮助决策过程。通过证明当前VLMs可以合理地捕捉人类视觉偏好,我们引入了高效柔性奖励策略,用于图像排序,在图像排名上优于简单的选择或评分方法。这种推理能力使VLMs能够对任意图像进行排名——无论其纵横比或复杂性如何——从而可能增强视觉偏好优化的有效性。通过减少对大量标注的需求,同时提高奖励泛化能力和可解释性,我们的发现可以成为进一步增强文本到视觉模型的重要里程碑。