摘要
大型语言模型 (LLM) 的卓越能力使其成为各种自主代理系统的关键组成部分。虽然传统方法依赖于LLM的固有知识而无需微调,但最近的方法已转向强化学习策略,以进一步增强代理解决与环境和工具进行复杂交互式任务的能力。然而,先前的方法受到稀疏奖励问题的限制,现有数据集仅为每个多步骤推理链提供最终的标量奖励,这可能导致策略学习效率低下。在本文中,我们介绍了 StepAgent,它利用逐步奖励来优化代理的强化学习过程。秉承从新手到专家的理论精神,我们首先比较专家和代理的动作,以自动生成用于细粒度优化的中间奖励。此外,我们提出了隐式奖励和逆强化学习技术,以促进代理反思和策略调整。进一步的理论分析表明,代理的动作分布可以在多个训练周期内收敛到专家动作分布。跨各种数据集的实验结果表明,StepAgent 优于现有的基线方法。