摘要
arXiv:2502.02584v1 类型: cross
摘要: 语言代理已成为解决复杂交互任务的一种有前途的解决方案。语言代理成功的关键因素之一是在代理工作流程轨迹上的奖励模型,它在训练或推理过程中提供了宝贵的指导。然而,由于缺乏中间交互的注释,大多数现有工作使用结果奖励模型在整个轨迹上优化策略,这可能导致次优策略,从而阻碍整体性能。为了解决这个问题,我们提出了QLASS(Q引导的语言代理逐步搜索),通过逐步估计开放语言代理中的Q值来自动生成注释。通过引入推理树并进行过程奖励建模,QLASS为每个步骤提供了有效的中间指导。借助逐步指导,我们提出了一种Q引导的生成策略,使语言代理更好地适应长期价值,在复杂交互代理任务的模型推理过程中实现了显著的性能改进。值得注意的是,即使使用几乎一半的标注数据,QLASS仍能保持强大的性能,证明了其在处理有限监督时的效率。我们还通过定性分析实证证明,QLASS能够通过更有效的决策。我们将会发布我们的代码和数据。