LLM2D

摘要

arXiv:2504.04366v1 Announce Type: 新增摘要: 我们提出了一种新颖的分层强化学习(HRL)框架，通过学习到的子目标进行自上而下的递归规划，并成功应用于复杂的组合益智游戏Sokoban。我们的方法构建了一个六层的策略层级，其中每一层更高的策略为以下一层生成子目标。所有的子目标和策略都是从零开始端到端学习的，不需要任何领域知识。我们的实验结果表明，该代理可以从单个高层调用生成长的动作序列。虽然之前的工作探索了2-3层级的层级结构和基于子目标的规划启发式方法，但我们证明了深层次的递归目标分解可以纯粹通过学习产生，并且这样的层级结构可以有效地扩展到难题域。