LLM2D

摘要

利用大型语言模型 (LLM) 在交互式环境中规划和行动以解决“真实”任务已成为人工智能方法的新前沿。尽管最近的进展使 LLM 能够与在线工具交互、解决机器人任务等等，但长程推理任务对于 LLM 来说仍然是一个问题。现有的解决此问题的方法非常资源密集，需要额外的数据或人工编制的规则，相反，我们提出了一种简单的方法，仅基于少量样本的上下文学习来增强“思维链”并进行状态跟踪，以便使用 LLM 进行规划和行动。我们表明，我们的方法在 Alfworld 上为上下文学习方法建立了新的最先进水平（比之前最好的少量样本上下文学习方法提高了 **+14%**），并且与使用额外训练数据和额外工具（如代码执行）的方法性能相当。我们还证明，我们增强的“状态链”使代理能够解决更长期的规划问题，并在解决任务所需的步骤数量方面更有效率。我们表明，我们的方法适用于各种 LLM，包括基于 API 和开源的 LLM。最后，我们还进行了消融研究，结果表明“思维链”有助于提高状态跟踪的准确性，而 JSON 结构则会损害整体性能。我们在 \url{https://github.com/ai-nikolai/StateAct} 上开源了我们的代码和注释。