LLM2D

摘要

arXiv:2502.13006v1 声明类型: 新摘要: 自动规划算法需要一个限定域模型，该模型指定了每种操作的先验条件和效果。获得这样的限定域模型通常非常困难。存在学习限定域模型的算法，但尚不清楚在数值规划环境下，即状态包括离散和数值状态变量的情况下，学习限定域模型和规划是否是一种有效的方法。在本工作中，我们探讨了学习数值限定域模型的好处，并将其与替代的无模型解决方案进行了比较。作为案例研究，我们使用了Minecraft中的两个任务，这是一个广泛使用的沙盒游戏，常被用作AI挑战。首先，我们考虑一种离线学习设置，在这种设置中，有一组专家轨迹可供学习。这是学习限定域模型的标准设置。我们使用了基于数值安全行动模型学习（NSAM）算法来学习一个数值限定域模型，并使用学习得到的限定域模型和数值规划器来解决新问题。我们将这种基于模型的解决方案称为NSAM_（+p），并将其与几个无模型的模拟学习（IL）和离线强化学习（RL）算法进行了比较。实验证明，一些IL算法在解决简单任务时学习得更快，而NSAM_（+p）能够解决需要长期规划的任务，并能泛化以在更大的环境中解决更多问题。然后，我们考虑一种在线学习设置，在这种设置中，学习是通过在环境中移动代理来进行的。为此设置，我们引入了RAMP。在RAMP中，在代理执行过程中收集到的观察值被用于同时训练一个RL策略并学习一个规划域动作模型。这形成了RL策略与学习到的限定域模型之间的正反馈循环。我们通过实验演示了使用RAMP的好处，展示了它比几个RL基线方法找到了更有效的计划，并解决了更多的问题。