摘要
大型语言模型代理在各种复杂的交互式任务中表现出卓越的性能。最近的方法利用专家轨迹进行微调以提高代理性能,但它们主要集中在结果奖励上,由于缺乏过程监督信号,这可能会导致错误或次优行为。在本文中,我们介绍了迭代步骤级过程细化 (IPR) 框架,该框架提供详细的逐步指导来增强代理训练。具体来说,我们采用蒙特卡罗方法来估计步骤级奖励。在每次迭代中,代理沿着专家轨迹探索并生成新的动作。然后,使用步骤级奖励将这些动作与专家轨迹的相应步骤进行评估。这种比较有助于识别差异,产生对比动作对,这些动作对作为代理的训练数据。我们在三个复杂代理任务上的实验表明,我们的框架优于各种强大的基线。此外,我们的分析结果突出了 IPR 在增强动作效率和其对不同模型的适用性方面的有效性。