摘要
arXiv:2504.04736v2 宣告类型: 更改
摘要:强化学习已被证明能够提升大型语言模型的性能。然而,传统的方法如RLHF或RLAIF将问题视为单步解决。随着对更复杂的推理和自主任务的关注增加,语言模型必须通过多次生成文本、推理和环境交互步骤,才能生成解决方案。我们提出了一种针对多步骤优化场景的合成数据生成和强化学习方法。这种方法称为逐步强化学习(Step-Wise Reinforcement Learning, SWiRL),它通过迭代生成多步骤推理和工具使用数据,然后从中学习。它采用简单的逐步分解方法,将每个多步骤轨迹分解为多个子轨迹,每个子轨迹对应原始模型的每个动作。然后,它在这些子轨迹上应用合成数据筛选和RL优化。我们在多个多步骤工具使用、问答和数学推理任务上评估了SWiRL。我们的实验表明,SWiRL分别在GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA上的相对准确度表现优于基础方法21.5%、12.3%、14.8%、11.1%和15.3%。令人兴奋的是,该方法在任务之间表现出泛化能力:例如,仅在HotPotQA(文本问答)上进行训练,可以将GSM8K(数学数据集)的零样本性能相对提高16.9%。