LLM2D

摘要

arXiv:2502.02584v1 类型: cross 摘要：语言代理已成为解决复杂交互任务的有前途的解决方案之一。语言代理成功的关键因素之一是在其流程轨迹上的奖励模型，该模型在训练或推理过程中提供了宝贵的指导。然而，由于缺乏对中间交互的标注，现有的大多数工作都使用结果导向的奖励模型来优化整个轨迹上的策略，这可能导致次优策略并妨碍整体性能。为了解决这一问题，我们提出了QLASS（Q引导的语言代理逐步搜索），通过逐步估算开放语言代理中的Q值来自动生成注释。通过引入推理树和过程奖励建模，QLASS为每一步提供了有效的中间指导。借助逐步指导，我们提出了一种Q引导生成策略，使语言代理能够更好地适应长期价值，在复杂的交互代理任务模型推理中显著提高了性能。值得注意的是，即使只有几乎一半的标注数据，QLASS仍保持了强大的性能，证明了它在处理有限监督方面的效率。我们还通过定性分析演示了QLASS可以导致更有效的决策制定。我们将发布我们的代码和数据。