摘要
arXiv:2502.14276v1 类型: cross
摘要: 基于大型语言模型(LLM)的代理在通过与环境动态交互来应对复杂任务方面显示出潜力。现有工作主要集中在从专家示范中进行行为克隆以及通过探索性轨迹采样进行偏好学习。然而,这些方法在长期任务中往往表现不佳,因为次优行动逐步积累,导致代理偏离正确的任务轨迹。为了解决这一问题,我们强调了及时校准的重要性,并指出需要自动生成校准轨迹来训练代理。我们提出了步骤级轨迹校准(STeCa),这是一种新颖的LLM代理学习框架。具体而言,STeCa在探索过程中通过步骤级奖励对比来识别次优行动,并通过LLM驱动的反思构建校准轨迹,使得代理能够从改进的决策过程中学到。这些校准轨迹与成功的轨迹数据一起用于增强训练。广泛实验表明,STeCa显著优于现有方法。进一步的分析还表明,步骤级校准使代理能够以更高的鲁棒性完成任务。我们的代码和数据可在https://github.com/WangHanLinHenry/STeCa 获取。