摘要
arXiv:2410.02810v2 通知类型: 修改
摘要:使用大型语言模型(LLMs)在交互环境中计划和行动以解决“真实”的任务已成为AI方法的新前沿。虽然最近的进步使LLMs能够与在线工具互动、解决机器人任务以及许多其他任务,但长范围推理任务仍是LLMs的难题。现有解决这一问题的方法非常耗费资源,并需要额外的数据或人工编写的规则,而我们提出了一种基于少量在上下文学习的简单方法来增强LLMs的“逐步思考”与状态跟踪,以进行规划和行动。我们表明,我们的方法在Alfworld数据集上建立了新的基于上下文学习方法的最新标准(相比于之前的最佳少量在上下文学习方法提高了14%),并且在使用额外训练数据和额外工具(如代码执行)的方法中表现相当。我们还证明,我们增强的“逐步状态”使智能体能够解决更长时间范围的问题,并且在解任务所需的步骤数量上更高效。我们展示了我们的方法在基于API和开源的多种LLMs中都有效。最后,我们还进行了消融研究,并表明“逐步思考”有助于状态跟踪的准确性,而JSON结构会损害整体性能。我们已开源我们的代码和注释,网址为https://github.com/ai-nikolai/StateAct。