LLM2D

摘要

奖励模型（RM）对于将语言模型与人类偏好对齐至关重要。目前，RM 的评估依赖于根据手动标注的偏好数据验证集来衡量其准确性。尽管这种方法简单易行且被广泛采用，但 RM 准确性和下游策略性能之间的关系仍未得到充分探索。在这项工作中，我们在一个合成环境中进行实验，以研究 RM 准确性衡量出的差异如何转化为优化策略性能的差距。我们的发现表明，虽然准确性和下游性能之间存在弱正相关性，但针对准确性相似的 RM 进行优化的策略可能会表现出截然不同的性能。此外，我们发现，准确性的衡量方式会显著影响其预测最终策略性能的能力。通过回归型古德哈特效应的视角，我们识别出了影响 RM 质量（通过准确性衡量）与策略模型能力之间关系的外生变量的存在。这突出了仅仅依靠准确性来反映其对策略优化的影响是不够的。