LLM2D
重思奖励模型评估:我们是否走错了方向?
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
作者: Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2410.05584v5

摘要

arXiv:2410.05584v5 通知类型: 替换-交叉 摘要: 奖励模型(RMs)对于使语言模型与人类偏好一致至关重要。目前,RMs的评估依赖于测量其在手动标注偏好数据验证集上的准确性。虽然这种方法简单且被广泛采用,但RM的准确性与下游政策性能之间的关系仍然鲜有探索。在本文中,我们在一个合成环境中进行实验,以研究准确性差异如何转化为优化政策性能的差距。我们的发现表明,虽然准确性与下游性能之间存在弱的正相关关系,但以类似准确性优化的策略却可能表现出相当不同的性能。此外,我们发现测量准确性的方式显著影响其预测最终政策性能的能力。通过回归Goodhart效应的视角,我们认识到,在用于衡量RM质量时,准确性可能会未能充分捕捉到RM过度优化的潜在风险。这突显了单纯依赖准确性来反映其对策略优化影响的不足。