LLM2D

摘要

大型语言模型代理在各种复杂的交互式任务中表现出卓越的性能。最近的方法利用专家轨迹进行微调以提高代理性能，但它们主要集中在结果奖励上，由于缺乏过程监督信号，这可能会导致错误或次优行为。在本文中，我们介绍了迭代步骤级过程细化 (IPR) 框架，该框架提供详细的逐步指导来增强代理训练。具体来说，我们采用蒙特卡罗方法来估计步骤级奖励。在每次迭代中，代理沿着专家轨迹探索并生成新的动作。然后，使用步骤级奖励将这些动作与专家轨迹的相应步骤进行评估。这种比较有助于识别差异，产生对比动作对，这些动作对作为代理的训练数据。我们在三个复杂代理任务上的实验表明，我们的框架优于各种强大的基线。此外，我们的分析结果突出了 IPR 在增强动作效率和其对不同模型的适用性方面的有效性。