摘要
我们提出了一种名为APT的先进大型语言模型(LLM)驱动框架,使自主智能体能够在Minecraft环境中构建复杂而富有创意的结构。与主要关注基于技能的开放世界任务或依赖于基于图像的扩散模型生成基于体素的结构的先前方法不同,我们的方法利用了LLM固有的空间推理能力。通过采用链式思维分解以及多模态输入,该框架生成详细的建筑布局和蓝图,智能体可以在零样本或少样本学习场景下执行这些蓝图。我们的智能体结合了记忆和反思模块,以促进终身学习、自适应改进和在整个构建过程中的错误纠正。为了严格评估智能体在这个新兴研究领域的性能,我们引入了一个综合基准,其中包含各种建筑任务,旨在测试创造力、空间推理能力、对游戏规则的遵守以及多模态指令的有效整合。使用各种基于GPT的LLM后端和智能体配置的实验结果表明,智能体能够准确解释涉及众多物品、其位置和方向的冗长指令。智能体成功地构建了复杂的结构,其中包括Redstone动力系统等内部功能。A/B测试表明,包含记忆模块可以显著提高性能,强调了其在实现持续学习和重用积累经验方面的作用。此外,智能体意外出现的脚手架行为凸显了未来LLM驱动智能体利用子程序规划和利用LLM的涌现能力自主开发类似人类的解决问题技术的潜力。