LLM2D

摘要

arXiv:2410.05584v5 通知类型: 替换-交叉摘要: 奖励模型(RMs)对于使语言模型与人类偏好一致至关重要。目前，RMs的评估依赖于测量其在手动标注偏好数据验证集上的准确性。虽然这种方法简单且被广泛采用，但RM的准确性与下游政策性能之间的关系仍然鲜有探索。在本文中，我们在一个合成环境中进行实验，以研究准确性差异如何转化为优化政策性能的差距。我们的发现表明，虽然准确性与下游性能之间存在弱的正相关关系，但以类似准确性优化的策略却可能表现出相当不同的性能。此外，我们发现测量准确性的方式显著影响其预测最终政策性能的能力。通过回归Goodhart效应的视角，我们认识到，在用于衡量RM质量时，准确性可能会未能充分捕捉到RM过度优化的潜在风险。这突显了单纯依赖准确性来反映其对策略优化影响的不足。