摘要
通过代理奖励建模从人类反馈中学习已被用于使大型语言模型 (LLM) 与人类价值观保持一致。然而,通过该代理奖励模型 (RM) 实现可靠的训练并非易事,其行为仍然是一个黑箱。在本文中,我们通过将可解释的特征组合成一个白盒奖励函数,通过“反向奖励工程”研究了代理奖励在 LLM 对齐中的作用。我们的目标是通过在强化学习 (RL) 中使用代理奖励训练模型后,在代理奖励信号和黄金奖励信号之间实现单调关系,从而复制地面真实(黄金)奖励信号。我们的发现表明,成功地模拟黄金奖励需要生成对开放式问题的足够长度的相关响应,同时还要确保对封闭式问题的响应一致性。此外,优化我们设计的白盒奖励的模型在对齐基准测试中表现出与强大的开源 RM 相当的性能。我们强调了它作为 LLM 对齐的简单但强大的奖励基线的潜在用途,不需要显式的人类反馈数据集和 RM 训练。我们的代码可在 https://github.com/naver-ai/rethinking-proxy-reward 获取。