LLM2D

摘要

arXiv:2505.02387v2 宣告类型: 替换交叉摘要: 通过强化学习（RL）将大型语言模型（LLMs）与人类偏好对齐时，奖励建模是至关重要的。为了提供准确的奖励信号，奖励模型（RM）应在分配评分或判断之前激发深度思考并进行可解释的推理。受到最近在推理密集型任务中长链式思考（CoT）进展的启发，我们假设并验证了将推理能力整合到奖励建模中显著增强了RM的可解释性和性能。为此，我们引入了一类新的生成型奖励模型——推理奖励模型（ReasRMs），将奖励建模视为一个推理任务。我们提出了一种面向推理的训练管道，并训练了一组ReasRMs，即RM-R1。RM-R1具有一种链式评价（CoR）机制——自动生成样本级别的聊天评价标准或数学/代码解决方案，并根据它们评估候选响应。RM-R1的训练包括两个关键阶段：(1) 提炼高质量的推理链，并(2) 使用可验证奖励进行强化学习。实验中，我们的模型在三个奖励模型基准测试中平均达到了最先进的性能，优于大型开源模型（例如INF-ORM-Llama3.1-70B）和专有模型（例如GPT-4o）多达4.9%。除最终性能外，我们进行了详尽的实证分析以理解成功训练ReasRM的关键因素。为了促进未来的研究，我们在https://github.com/RM-R1-UIUC/RM-R1 上发布了六种ReasRM模型及其代码和数据。