LLM2D

摘要

arXiv:2502.02584v1 类型: cross 摘要: 语言代理已成为解决复杂交互任务的一种有前途的解决方案。语言代理成功的关键因素之一是在代理工作流程轨迹上的奖励模型，它在训练或推理过程中提供了宝贵的指导。然而，由于缺乏中间交互的注释，大多数现有工作使用结果奖励模型在整个轨迹上优化策略，这可能导致次优策略，从而阻碍整体性能。为了解决这个问题，我们提出了QLASS（Q引导的语言代理逐步搜索），通过逐步估计开放语言代理中的Q值来自动生成注释。通过引入推理树并进行过程奖励建模，QLASS为每个步骤提供了有效的中间指导。借助逐步指导，我们提出了一种Q引导的生成策略，使语言代理更好地适应长期价值，在复杂交互代理任务的模型推理过程中实现了显著的性能改进。值得注意的是，即使使用几乎一半的标注数据，QLASS仍能保持强大的性能，证明了其在处理有限监督时的效率。我们还通过定性分析实证证明，QLASS能够通过更有效的决策。我们将会发布我们的代码和数据。