摘要
arXiv:2504.03380v1 类别:交叉学科
摘要:基于推理的强化学习(Reasoning-Oriented Reinforcement Learning, RORL)增强了大规模语言模型(Large Language Models, LLMs)的推理能力。然而,由于RORL中奖励的稀疏性,有效的训练高度依赖于选择适当难度的问题。尽管循序渐进的学习试图通过调整难度来解决这一问题,但这种方法通常依赖于静态时间表,而且即使最新的在线过滤方法也缺乏理论依据和对其有效性的系统理解。在本文中,我们从理论上和实验上证明,使用训练模型在飞速实现中间准确度的问题来制定批次可以最大化RORL训练的效果,即平衡在线难度过滤。我们首先推导出初始策略与最优策略之间的KL散度下界可以用采样准确度的方差来表示。基于这些见解,我们证明了平衡过滤可以最大化这个下界,从而提高性能。跨五个具有挑战性的数学推理基准的实验结果显示,平衡在线过滤在AIME上额外提高了10%,并且在平均情况下优于裸GRPO 4%。此外,进一步的分析显示了样本效率和训练时间效率的提高,在裸GRPO的60%训练时间内达到最大奖励,在训练集的体积上也有超出。