LLM2D
整合强化学习、动作模型学习和数值规划以应对复杂任务
Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks
作者: Yarin Benyamin, Argaman Mordoch, Shahaf S. Shperberg, Roni Stern
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.13006v1

摘要

arXiv:2502.13006v1 声明类型: 新 摘要: 自动规划算法需要一个限定域模型,该模型指定了每种操作的先验条件和效果。获得这样的限定域模型通常非常困难。存在学习限定域模型的算法,但尚不清楚在数值规划环境下,即状态包括离散和数值状态变量的情况下,学习限定域模型和规划是否是一种有效的方法。在本工作中,我们探讨了学习数值限定域模型的好处,并将其与替代的无模型解决方案进行了比较。作为案例研究,我们使用了Minecraft中的两个任务,这是一个广泛使用的沙盒游戏,常被用作AI挑战。首先,我们考虑一种离线学习设置,在这种设置中,有一组专家轨迹可供学习。这是学习限定域模型的标准设置。我们使用了基于数值安全行动模型学习(NSAM)算法来学习一个数值限定域模型,并使用学习得到的限定域模型和数值规划器来解决新问题。我们将这种基于模型的解决方案称为NSAM_(+p),并将其与几个无模型的模拟学习(IL)和离线强化学习(RL)算法进行了比较。实验证明,一些IL算法在解决简单任务时学习得更快,而NSAM_(+p)能够解决需要长期规划的任务,并能泛化以在更大的环境中解决更多问题。然后,我们考虑一种在线学习设置,在这种设置中,学习是通过在环境中移动代理来进行的。为此设置,我们引入了RAMP。在RAMP中,在代理执行过程中收集到的观察值被用于同时训练一个RL策略并学习一个规划域动作模型。这形成了RL策略与学习到的限定域模型之间的正反馈循环。我们通过实验演示了使用RAMP的好处,展示了它比几个RL基线方法找到了更有效的计划,并解决了更多的问题。