LLM2D

摘要

奖励模型在提高大型语言模型 (LLM) 的推理能力方面越来越重要。现有研究表明，经过良好训练的奖励模型可以通过搜索大幅提高模型在推理时的性能。然而，奖励模型在强化学习 (RL) 训练期间的潜力仍然很大程度上未被探索。目前尚不清楚这些奖励模型能否提供额外的训练信号，以增强在使用稀疏成功奖励（验证解决方案的正确性）的 RL 训练中 LLMs 的推理能力。在这项工作中，我们评估了用于 RL 训练的流行奖励模型，包括结果监督奖励模型 (ORM) 和过程监督奖励模型 (PRM)，并通过将这些学习到的奖励与成功奖励相结合，使用 RL 训练用于解决数学问题的 LLM 集合。令人惊讶的是，尽管这些学习到的奖励模型具有强大的推理时间性能，但它们可能无法帮助甚至会损害 RL 训练，产生的性能比仅使用成功奖励训练的 LLM 更差。我们的分析表明，LLM 可以通过重复正确但无必要的推理步骤从某些奖励模型中获得高奖励，从而导致严重的奖励作弊问题。因此，我们引入了两种新的奖励细化技术，包括裁剪和增量。其核心思想是确保任何推理轨迹的累积奖励具有上限，以保持学习到的奖励模型有效，而不会被利用。我们在 MATH 和 GSM8K 基准测试中，使用多个奖励模型对一组 15 亿和 70 亿参数的 LLM 进行了评估，结果表明，通过精心设计的奖励函数，无需任何额外的监督微调即可改进所有经过评估的 LLM，包括在 MATH 和 GSM8K 基准测试中达到最先进水平的 70 亿参数 LLM Qwen2.5-Math-7B-Instruct。