LLM2D

摘要

arXiv:2410.02810v3 宣称类型: 替换摘要：大型语言模型（LLMs）越来越多地用作自主代理，处理从机器人学到网络导航的各类任务。它们的表现取决于底层基代理。然而，现有的方法在长时间上下文推理和目标遵守方面遇到困难。我们引入了StateAct，这是一种新颖且高效的基代理，通过（1）自我提示，在每一步都强化任务目标，以及（2）状态链，这是一种扩展的思维链，能够随着时间跟踪状态信息，来增强决策制定。在多种前沿LLM上，StateAct在Alfworld上的表现比之前的最佳基代理ReAct高出超过10%，在Textcraft上高出30%，在Webshop上高出7%。我们还展示了StateAct可以作为一种直接替代ReAct的插件式替代品，并在使用高级LLM代理方法（如测试时放大）时，在Textcraft上能额外提高12%的性能。通过提高效率和长范围推理能力，而无需额外的训练或检索，StateAct为LLM代理提供了可扩展的基础。我们开源了我们的代码以支持进一步的研究，链接为https://github.com/ai-nikolai/stateact 。