LLM2D

摘要

arXiv:2504.02495v2 声明类型: replace-cross 摘要：强化学习（RL）在大规模语言模型（LLMs）的后训练中已被广泛应用。最近，从RL激励LLMs的推理能力表明，合适的学习方法可以使推理时的有效缩放成为可能。RL的关键挑战是，在可验证的问题或人工规则之外的各种领域中为LLMs获取准确的奖励信号。在本工作中，我们研究了如何通过更多的推理计算来提高通用查询的奖励建模（RM），即通用奖励建模的推理时缩放，进一步探讨如何通过合适的学习方法提高性能计算缩放的有效性。对于RM方法，我们采用点生成奖励建模（GRM）以适应不同输入类型并具备推理时缩放的潜力。对于学习方法，我们提出了一种自我原则批判调整（SPCT）方法，通过在线RL促进GRMs中可扩展的奖励生成行为，生成适应性和准确的批判，从而得到DeepSeek-GRM模型。此外，为了有效实现推理时缩放，我们使用并行采样扩展计算使用，并引入一种元奖励建模来指导投票过程，以实现更好的缩放性能。实验证明，SPCT显着提高了GRMs的质量和可缩放性，优于各种RM基准中的现有方法和模型，且在各种情况下表现更好，优于训练时缩放。尽管DeepSeek-GRM在某些任务中仍面临挑战，但我们认为这可以通过未来对通用奖励系统的努力来解决。模型将被发布并开源。