LLM2D

摘要

arXiv:2502.14191v1 交叉公告类型摘要：奖励模型在通过评估输出质量来训练视觉-语言模型(VLMs)时起着至关重要的作用，从而能够与人类偏好对齐。尽管它们的重要性不言而喻，但研究社区缺乏全面的多模态奖励模型评估基准来评估VLMs中的多模态奖励模型。为了解决这一缺口，我们引入了Multimodal RewardBench，这是一个由专家注释的基准，涵盖了六个领域：一般正确性、偏好、知识、推理、安全和视觉问答。我们的数据集包括5,211个注释的(prompt, 选择的响应, 拒绝的响应)三元组，这些三元组来自多种VLMs。在评估一系列VLM判官时，我们发现即使是表现最好的模型Gemini 1.5 Pro和Claude 3.5 Sonnet也只能达到72%的整体准确性。值得注意的是，大多数模型在推理和安全领域表现不佳。这些发现表明，Multimodal RewardBench为跨多个领域推进奖励模型的发展提供了一个具有挑战性的测试平台。我们已在https://github.com/facebookresearch/multimodal_rewardbench发布了该基准。