LLM2D

摘要

arXiv:2504.14945v2 宣告类型: replace-cross 摘要: 最近在大规模推理模型(LRMs)方面的进步表明，通过强化学习(RL)和简单的规则奖励，复杂的多步推理和自我反思等行为可以出现。然而，现有的零RL方法本质上是“on-policy”的，这限制了学习仅限于模型自身的输出，并且未能获取超出初始能力的推理能力。我们引入了LUFFY(在off-policy指导下的学习推理)，这是一个框架，它将off-policy推理轨迹添加到零RL中。LUFFY在训练过程中通过结合off-policy示范和on-policy滚动生成动态平衡模仿和探索。值得注意的是，我们提出了通过正则化重要性采样进行策略塑形，以避免混合策略训练过程中的表面化和僵硬模仿。令人惊讶的是，LUFFY在六个数学基准测试中实现了超过+7.0的平均收益，并且在分布外任务中的优势超过+6.2分。它还在泛化方面明显超越了基于模仿的监督微调(SFT)。分析表明，LUFFY不仅能够有效地模仿，还能够超越示范进行探索，提供了一条利用off-policy指导训练具有泛化能力的推理模型的可扩展途径。