摘要
奖励模型(RM)对于将语言模型与人类偏好对齐至关重要。目前,RM 的评估依赖于根据手动标注的偏好数据验证集来衡量其准确性。尽管这种方法简单易行且被广泛采用,但 RM 准确性和下游策略性能之间的关系仍未得到充分探索。在这项工作中,我们在一个合成环境中进行实验,以研究 RM 准确性衡量出的差异如何转化为优化策略性能的差距。我们的发现表明,虽然准确性和下游性能之间存在弱正相关性,但针对准确性相似的 RM 进行优化的策略可能会表现出截然不同的性能。此外,我们发现,准确性的衡量方式会显著影响其预测最终策略性能的能力。通过回归型古德哈特效应的视角,我们识别出了影响 RM 质量(通过准确性衡量)与策略模型能力之间关系的外生变量的存在。这突出了仅仅依靠准确性来反映其对策略优化的影响是不够的。