LLM2D
重新思考奖励模型评估:我们是不是在抓错树了?
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
作者: Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2410.05584v4

摘要

arXiv:2410.05584v4 宣布类型: replace-cross 摘要: 奖励模型 (RMs) 对于使语言模型与人类偏好保持一致至关重要。目前,对 RMs 的评估依赖于测量其与手动标注偏好的验证集的准确性。尽管这种方法简单且广泛采用,但 RMs 的准确性与其下游策略性能之间的关系仍是一个未充分探索的领域。在本工作中,我们在一个合成环境中进行实验,以探讨准确性差异如何转化为优化策略性能的差距。我们的发现表明,在准确性相近的 RMs 优化下,优化策略的性能可能存在显著差异。此外,我们发现测量准确性的方法显著影响其预测最终策略性能的能力。在回归型Goodhart效应的角度下,我们认识到,当使用准确性来衡量 RM 质量时,可能会未能充分捕捉到 RM 过度优化的潜在风险。这强调了仅依赖准确性来反映其对策略优化影响的不足之处。