LLM2D

摘要

arXiv:2504.04736v1 通知类型: 新摘要: 受强化学习已证明可以提升大型语言模型性能的成果启发，传统方法如RLHF或RLAIF都将问题视为单步处理。随着对更复杂推理和自主任务的关注转移，语言模型必须通过多次文本生成、推理和环境交互来生成解决方案。我们提出了一种针对多步优化场景的合成数据生成和RL方法。这种方法被称为逐步强化学习(SWiRL)，它逐步生成多步推理和工具使用数据，并从这些数据中进行学习。它采用一种简单的逐步分解方法，将每个多步轨迹分解为多个子轨迹，每个子轨迹对应原始模型的一个动作。然后在这些子轨迹上应用合成数据过滤和RL优化。我们在多个多步工具使用、问答和数学推理任务上评估了SWiRL。我们的实验证明，SWiRL分别在GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA上的相对准确度上分别超过了基线方法21.5%、12.3%、14.8%、11.1%和15.3%。令人兴奋的是，该方法在任务之间表现出泛化能力：例如，仅在HotPotQA（文本问答）上进行训练，在GSM8K（一个数学数据集）上的零样本性能上相对提高了16.9%。