摘要
arXiv:2410.05584v4 宣布类型: replace-cross
摘要: 奖励模型 (RMs) 对于使语言模型与人类偏好保持一致至关重要。目前,对 RMs 的评估依赖于测量其与手动标注偏好的验证集的准确性。尽管这种方法简单且广泛采用,但 RMs 的准确性与其下游策略性能之间的关系仍是一个未充分探索的领域。在本工作中,我们在一个合成环境中进行实验,以探讨准确性差异如何转化为优化策略性能的差距。我们的发现表明,在准确性相近的 RMs 优化下,优化策略的性能可能存在显著差异。此外,我们发现测量准确性的方法显著影响其预测最终策略性能的能力。在回归型Goodhart效应的角度下,我们认识到,当使用准确性来衡量 RM 质量时,可能会未能充分捕捉到 RM 过度优化的潜在风险。这强调了仅依赖准确性来反映其对策略优化影响的不足之处。