LLM2D

摘要

大型语言模型 (LLM) 的卓越能力使其成为各种自主代理系统的关键组成部分。虽然传统方法依赖于LLM的固有知识而无需微调，但最近的方法已转向强化学习策略，以进一步增强代理解决与环境和工具进行复杂交互式任务的能力。然而，先前的方法受到稀疏奖励问题的限制，现有数据集仅为每个多步骤推理链提供最终的标量奖励，这可能导致策略学习效率低下。在本文中，我们介绍了 StepAgent，它利用逐步奖励来优化代理的强化学习过程。秉承从新手到专家的理论精神，我们首先比较专家和代理的动作，以自动生成用于细粒度优化的中间奖励。此外，我们提出了隐式奖励和逆强化学习技术，以促进代理反思和策略调整。进一步的理论分析表明，代理的动作分布可以在多个训练周期内收敛到专家动作分布。跨各种数据集的实验结果表明，StepAgent 优于现有的基线方法。