摘要
arXiv:2504.02495v2 声明类型: replace-cross
摘要:强化学习(RL)在大规模语言模型(LLMs)的后训练中已被广泛应用。最近,从RL激励LLMs的推理能力表明,合适的学习方法可以使推理时的有效缩放成为可能。RL的关键挑战是,在可验证的问题或人工规则之外的各种领域中为LLMs获取准确的奖励信号。在本工作中,我们研究了如何通过更多的推理计算来提高通用查询的奖励建模(RM),即通用奖励建模的推理时缩放,进一步探讨如何通过合适的学习方法提高性能计算缩放的有效性。对于RM方法,我们采用点生成奖励建模(GRM)以适应不同输入类型并具备推理时缩放的潜力。对于学习方法,我们提出了一种自我原则批判调整(SPCT)方法,通过在线RL促进GRMs中可扩展的奖励生成行为,生成适应性和准确的批判,从而得到DeepSeek-GRM模型。此外,为了有效实现推理时缩放,我们使用并行采样扩展计算使用,并引入一种元奖励建模来指导投票过程,以实现更好的缩放性能。实验证明,SPCT显着提高了GRMs的质量和可缩放性,优于各种RM基准中的现有方法和模型,且在各种情况下表现更好,优于训练时缩放。尽管DeepSeek-GRM在某些任务中仍面临挑战,但我们认为这可以通过未来对通用奖励系统的努力来解决。模型将被发布并开源。