摘要
arXiv:2504.02495v1 类型: cross
摘要: 强化学习(RL)已被广泛应用于大规模语言模型(LLMs)的后训练中。最近,在LLMs中激励推理能力的研究表明,适当的强化学习方法可以使推理时的可扩展性更加有效。强化学习的一个关键挑战是,在可验证的问题或人工规则之外的各种领域中获得LLMs的准确奖励信号。在本文中,我们探讨了如何通过更多的推理计算来改进奖励建模(RM)以应对一般查询,即**一般主义者RM的推理时可扩展性**,并进一步探讨了如何通过适当的强化学习方法提高性能-计算扩展的有效性。对于RM方法,我们采用点生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时可扩展性的潜力。对于学习方法,我们提出了自我原则批判调整(SPCT),通过在线RL,促进GRM中可扩展的奖励生成行为,从而自适应地生成原则并准确地生成批判,结果得到了**DeepSeek-GRM**模型。此外,为了提高推理时的可扩展性,我们使用并行采样来扩展计算使用,并引入了一个元奖励建模来指导投票过程,以获得更好的扩展性能。从经验上讲,我们展示了SPCT显著提高了GRM的质量和可扩展性,超过了各种奖励建模基准中的现有方法和模型,而不会产生严重的偏差,且能够在推理时扩展性方面取得更好的性能。DeepSeek-GRM在某些任务中仍面临挑战,我们认为可以通过未来努力改进通用奖励系统的可扩展性来解决这些问题。该模型将被发布并开源。