摘要
大型语言模型(LLM)是否可以直接作为基于模型的智能体的强大世界模型?虽然LLM的先验知识与指定环境的动力学之间存在差距,但我们的研究表明,通过将LLM与部署环境对齐可以弥合这些差距,这种“世界对齐”可以通过在LLM上进行规则学习来有效地实现。鉴于LLM丰富的先验知识,只需少量额外的规则就足以使LLM预测与指定环境的动力学相一致。为此,我们提出了一种神经符号方法,通过LLM以无梯度的方式学习这些规则,通过基于代理探索的轨迹和世界模型预测的比较来诱导、更新和修剪规则。由此产生的世界模型由LLM和学习到的规则组成。我们的具身LLM代理“WALL-E”建立在模型预测控制(MPC)的基础上。通过根据精确的世界模型优化前瞻动作,MPC显着提高了探索和学习效率。与现有的LLM代理相比,WALL-E的推理只需要几个主要规则,而不是将冗长的缓冲轨迹包含在LLM输入中。在Minecraft和ALFWorld的开放世界挑战中,WALL-E比现有方法取得了更高的成功率,同时在重新规划时间和用于推理的令牌数量方面成本更低。在Minecraft中,WALL-E的成功率比基线高出15-30%,同时重新规划轮次减少了8-20轮,仅使用了60-80%的令牌。在ALFWorld中,其成功率仅在6次迭代后就跃升至95%的新纪录。