摘要
arXiv:2505.02387v2 宣告类型: 替换交叉
摘要: 通过强化学习(RL)将大型语言模型(LLMs)与人类偏好对齐时,奖励建模是至关重要的。为了提供准确的奖励信号,奖励模型(RM)应在分配评分或判断之前激发深度思考并进行可解释的推理。受到最近在推理密集型任务中长链式思考(CoT)进展的启发,我们假设并验证了将推理能力整合到奖励建模中显著增强了RM的可解释性和性能。为此,我们引入了一类新的生成型奖励模型——推理奖励模型(ReasRMs),将奖励建模视为一个推理任务。我们提出了一种面向推理的训练管道,并训练了一组ReasRMs,即RM-R1。RM-R1具有一种链式评价(CoR)机制——自动生成样本级别的聊天评价标准或数学/代码解决方案,并根据它们评估候选响应。RM-R1的训练包括两个关键阶段:(1) 提炼高质量的推理链,并(2) 使用可验证奖励进行强化学习。实验中,我们的模型在三个奖励模型基准测试中平均达到了最先进的性能,优于大型开源模型(例如INF-ORM-Llama3.1-70B)和专有模型(例如GPT-4o)多达4.9%。除最终性能外,我们进行了详尽的实证分析以理解成功训练ReasRM的关键因素。为了促进未来的研究,我们在https://github.com/RM-R1-UIUC/RM-R1 上发布了六种ReasRM模型及其代码和数据。