LLM2D

摘要

奖励建模对于使大型语言模型 (LLM) 与人类偏好保持一致至关重要，尤其是在基于人类反馈的强化学习 (RLHF) 中。然而，目前的奖励模型主要产生标量分数，难以整合自然语言形式的批评意见。我们假设预测批评意见和标量奖励都能提高奖励建模能力。基于此，我们提出了 Critic-RM 框架，该框架无需额外监督即可利用自生成的批评意见来改进奖励模型。Critic-RM 采用两阶段过程：生成和过滤高质量的批评意见，然后对奖励预测和批评意见生成进行联合微调。跨基准的实验表明，与标准奖励模型和 LLM 评判相比，Critic-RM 将奖励建模精度提高了 3.7%-7.3%，展现出强大的性能和数据效率。额外的研究进一步验证了生成的批评意见在纠正有缺陷的推理步骤方面的有效性，推理精度提高了 2.5%-3.2%。