LLM2D

摘要

arXiv:2503.19948v1 交叉公告类型摘要：视觉语言模型（VLMs）能否有效捕捉人类的视觉偏好？本研究通过在测试时让VLMs思考偏好，并采用受到DeepSeek R1和OpenAI O1启发的强化学习方法来应对这一问题。利用如ImageReward和Human Preference Score v2（HPSv2）等数据集，我们的模型在ImageReward测试集（使用ImageReward官方划分进行训练）上的准确率为64.9%，在HPSv2上的准确率为65.4%（训练数据约占其数据量的25%）。这些结果与传统的基于编码器的模型相匹配，但提供了透明的推理和更强的泛化能力。这种方法不仅允许使用丰富的VLM世界知识，还能利用其潜在的思考能力，产生可解释的结果，帮助决策过程。通过证明当前VLMs可以合理地捕捉人类视觉偏好，我们引入了高效柔性奖励策略，用于图像排序，在图像排名上优于简单的选择或评分方法。这种推理能力使VLMs能够对任意图像进行排名——无论其纵横比或复杂性如何——从而可能增强视觉偏好优化的有效性。通过减少对大量标注的需求，同时提高奖励泛化能力和可解释性，我们的发现可以成为进一步增强文本到视觉模型的重要里程碑。