LLM2D

摘要

arXiv:2504.15785v1 世界模型类型：新摘要：我们能否利用大规模语言模型（LLMs）构建准确的世界模型？世界模型如何为LLM代理提供益处？LLMs之前的知识与指定环境的动力学之间的差距通常会瓶颈LLMs作为世界模型的性能。为了弥合这一差距，我们提出了一种无需训练的“世界对齐”方法，该方法学习LLMs所不具备的环境的符号知识。符号知识涵盖了行为规则、知识图和场景图，这些知识是从探索轨迹中通过LLMs提取出来的，并被编码成可执行代码以调节LLM代理的策略。进一步地，我们通过模型预测控制（MPC）框架提出了一个无需强化学习的基于模型的代理“WALL-E 2.0”。与需要即时进行昂贵优化的经典MPC不同，我们采用一个LLM代理作为高效的前瞻优化器，通过与神经符号世界模型交互来预测未来步骤的动作。虽然LLM代理的强启发式方法使它在MPC中成为一个高效的规划者，但其计划动作的质量也由对齐的世界模型的准确预测所保证。它们共同显著提高了新环境中的学习效率。在火星（类似于Minecraft）和ALFWorld（具身室内环境）的开放世界挑战中，WALL-E 2.0显著优于现有方法，例如在火星上的成功率提高了16.1%至51.6%，并在得分上提高了至少61.7%。在ALFWorld中，它在仅仅4次迭代后实现了98%的成功率，创造了新的记录。