摘要
arXiv:2501.11425v3 宣告类型:替换
摘要:大型语言模型(LLMs)代理在处理交互环境中复杂任务方面的作用越来越关键。现有工作主要集中在通过行为克隆更强的专家来提升性能,然而,这些方法在实际应用中往往无法奏效,主要原因在于无法从错误中恢复。然而,获取步骤级批评数据既困难又昂贵。因此,自动化和动态构建自我批评数据集对赋予模型智能代理能力至关重要。在本文中,我们提出了一种迭代自我训练框架Agent-R,该框架使语言代理能够在飞行中自我反思。与传统的基于行为正确性进行奖励或惩罚的方法不同,Agent-R 利用MCTS(蒙特卡洛树搜索)构建训练数据,从错误轨迹中恢复正确的轨迹。代理反思的关键挑战在于需要及时修正,而不是等待整个模拟结束。为了解决这一问题,我们引入了一种基于模型的批评构建机制:动作模型在其当前能力范围内识别失败轨迹中的第一个错误步骤。从这个步骤开始,我们将它与相邻的正确路径拼接,两者共享树中的同一个父节点。这种策略使模型能够在当前策略的基础上学习反思,从而提高学习效率。为了进一步探索这种自我改进模式的扩展性,我们研究了错误校正能力和数据集构建的迭代改进。我们的研究结果表明,Agent-R 不断提升模型从错误中恢复的能力,并能够实现及时的错误修正。在三个交互环境中的实验表明,Agent-R 有效地使代理能够纠正错误行为,同时避免循环,与基准方法相比,性能提高了5.59%。