LLM2D
WALL-E 2.0: 通过神经符号学习实现世界对齐的世界模型驱动的大语言模型代理
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
作者: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15785v1

摘要

arXiv:2504.15785v1 世界模型类型:新 摘要:我们能否利用大规模语言模型(LLMs)构建准确的世界模型?世界模型如何为LLM代理提供益处?LLMs之前的知识与指定环境的动力学之间的差距通常会瓶颈LLMs作为世界模型的性能。为了弥合这一差距,我们提出了一种无需训练的“世界对齐”方法,该方法学习LLMs所不具备的环境的符号知识。符号知识涵盖了行为规则、知识图和场景图,这些知识是从探索轨迹中通过LLMs提取出来的,并被编码成可执行代码以调节LLM代理的策略。进一步地,我们通过模型预测控制(MPC)框架提出了一个无需强化学习的基于模型的代理“WALL-E 2.0”。与需要即时进行昂贵优化的经典MPC不同,我们采用一个LLM代理作为高效的前瞻优化器,通过与神经符号世界模型交互来预测未来步骤的动作。虽然LLM代理的强启发式方法使它在MPC中成为一个高效的规划者,但其计划动作的质量也由对齐的世界模型的准确预测所保证。它们共同显著提高了新环境中的学习效率。在火星(类似于Minecraft)和ALFWorld(具身室内环境)的开放世界挑战中,WALL-E 2.0显著优于现有方法,例如在火星上的成功率提高了16.1%至51.6%,并在得分上提高了至少61.7%。在ALFWorld中,它在仅仅4次迭代后实现了98%的成功率,创造了新的记录。