LLM2D

摘要

大型语言模型（LLM）是否可以直接作为基于模型的智能体的强大世界模型？虽然LLM的先验知识与指定环境的动力学之间存在差距，但我们的研究表明，通过将LLM与部署环境对齐可以弥合这些差距，这种“世界对齐”可以通过在LLM上进行规则学习来有效地实现。鉴于LLM丰富的先验知识，只需少量额外的规则就足以使LLM预测与指定环境的动力学相一致。为此，我们提出了一种神经符号方法，通过LLM以无梯度的方式学习这些规则，通过基于代理探索的轨迹和世界模型预测的比较来诱导、更新和修剪规则。由此产生的世界模型由LLM和学习到的规则组成。我们的具身LLM代理“WALL-E”建立在模型预测控制（MPC）的基础上。通过根据精确的世界模型优化前瞻动作，MPC显着提高了探索和学习效率。与现有的LLM代理相比，WALL-E的推理只需要几个主要规则，而不是将冗长的缓冲轨迹包含在LLM输入中。在Minecraft和ALFWorld的开放世界挑战中，WALL-E比现有方法取得了更高的成功率，同时在重新规划时间和用于推理的令牌数量方面成本更低。在Minecraft中，WALL-E的成功率比基线高出15-30%，同时重新规划轮次减少了8-20轮，仅使用了60-80%的令牌。在ALFWorld中，其成功率仅在6次迭代后就跃升至95%的新纪录。