摘要
arXiv:2504.14945v1 宣布类型:交叉学科
摘要:近年来,大型推理模型(LRMs)的研究表明,通过强化学习(RL)和简单的基于规则的奖励,复杂的多步推理和自我反思等行为可以涌现。然而,现有的零RL方法本质上是“在线的”,仅限于在其自身输出上的学习,并且无法获取超出其初始能力的推理能力。我们提出了LUFFY(在离策略引导下学习推理),这是一种将离策略推理轨迹与零RL结合起来的框架。LUFFY在训练过程中通过结合离策略演示和在线策略滚存货档动态平衡模仿和探索。值得注意的是,在混合策略训练中,我们提出了经过正则化的重要性抽样策略塑造方法,以避免在混合策略训练中表面化和僵硬的模仿。令人惊讶的是,LUFFY在六个数学基准测试中实现了超过+7.0的平均收益,并且在分布外任务中的优势超过+6.2分。此外,在泛化方面,LUFFY显著超过了基于模仿的监督微调(SFT)。分析表明,LUFFY不仅能够有效模仿,还能超越演示进行探索,提供了一条有离策略引导支持的可扩展路径,用于训练可泛化的推理模型。