LLM2D

摘要

arXiv:2410.05584v4 宣布类型: replace-cross 摘要: 奖励模型 (RMs) 对于使语言模型与人类偏好保持一致至关重要。目前，对 RMs 的评估依赖于测量其与手动标注偏好的验证集的准确性。尽管这种方法简单且广泛采用，但 RMs 的准确性与其下游策略性能之间的关系仍是一个未充分探索的领域。在本工作中，我们在一个合成环境中进行实验，以探讨准确性差异如何转化为优化策略性能的差距。我们的发现表明，在准确性相近的 RMs 优化下，优化策略的性能可能存在显著差异。此外，我们发现测量准确性的方法显著影响其预测最终策略性能的能力。在回归型Goodhart效应的角度下，我们认识到，当使用准确性来衡量 RM 质量时，可能会未能充分捕捉到 RM 过度优化的潜在风险。这强调了仅依赖准确性来反映其对策略优化影响的不足之处。