摘要
arXiv:2504.14945v2 宣告类型: replace-cross
摘要: 最近在大规模推理模型(LRMs)方面的进步表明,通过强化学习(RL)和简单的规则奖励,复杂的多步推理和自我反思等行为可以出现。然而,现有的零RL方法本质上是“on-policy”的,这限制了学习仅限于模型自身的输出,并且未能获取超出初始能力的推理能力。我们引入了LUFFY(在off-policy指导下的学习推理),这是一个框架,它将off-policy推理轨迹添加到零RL中。LUFFY在训练过程中通过结合off-policy示范和on-policy滚动生成动态平衡模仿和探索。值得注意的是,我们提出了通过正则化重要性采样进行策略塑形,以避免混合策略训练过程中的表面化和僵硬模仿。令人惊讶的是,LUFFY在六个数学基准测试中实现了超过+7.0的平均收益,并且在分布外任务中的优势超过+6.2分。它还在泛化方面明显超越了基于模仿的监督微调(SFT)。分析表明,LUFFY不仅能够有效地模仿,还能够超越示范进行探索,提供了一条利用off-policy指导训练具有泛化能力的推理模型的可扩展途径。