摘要
arXiv:2504.04736v1 通知类型: 新
摘要: 受强化学习已证明可以提升大型语言模型性能的成果启发,传统方法如RLHF或RLAIF都将问题视为单步处理。随着对更复杂推理和自主任务的关注转移,语言模型必须通过多次文本生成、推理和环境交互来生成解决方案。我们提出了一种针对多步优化场景的合成数据生成和RL方法。这种方法被称为逐步强化学习(SWiRL),它逐步生成多步推理和工具使用数据,并从这些数据中进行学习。它采用一种简单的逐步分解方法,将每个多步轨迹分解为多个子轨迹,每个子轨迹对应原始模型的一个动作。然后在这些子轨迹上应用合成数据过滤和RL优化。我们在多个多步工具使用、问答和数学推理任务上评估了SWiRL。我们的实验证明,SWiRL分别在GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA上的相对准确度上分别超过了基线方法21.5%、12.3%、14.8%、11.1%和15.3%。令人兴奋的是,该方法在任务之间表现出泛化能力:例如,仅在HotPotQA(文本问答)上进行训练,在GSM8K(一个数学数据集)上的零样本性能上相对提高了16.9%。