摘要
arXiv:2411.16646v3 宣告类型: 替换-交叉
摘要:奖励建模对于对齐大型语言模型(LLMs)与人类偏好至关重要,特别是在基于人类反馈的强化学习(RLHF)中。然而,当前的奖励模型主要生成标量分数,并且难以将自然语言格式的批评意见纳入其中。我们假设同时预测批评意见和标量奖励会提高奖励建模的能力。受此启发,我们提出了Critic-RM框架,该框架通过自我生成的批评意见改进奖励模型,而不需要额外的监督。Critic-RM采用两阶段过程:首先生成和筛选高质量的批评意见,然后联合微调奖励预测和批评意见生成。在多个基准测试中,Critic-RM将奖励建模准确性提高了3.7%-7.3%,相比标准奖励模型和LLM评审员,显示出强大的性能和数据效率。此外的研究进一步验证了生成的批评意见在纠正错误推理步骤方面的有效性,提高了2.5%-3.2%的推理准确性改进率。