摘要
arXiv:2504.04366v1
Announce Type: 新增
摘要: 我们提出了一种新颖的分层强化学习(HRL)框架,通过学习到的子目标进行自上而下的递归规划,并成功应用于复杂的组合益智游戏Sokoban。我们的方法构建了一个六层的策略层级,其中每一层更高的策略为以下一层生成子目标。所有的子目标和策略都是从零开始端到端学习的,不需要任何领域知识。我们的实验结果表明,该代理可以从单个高层调用生成长的动作序列。虽然之前的工作探索了2-3层级的层级结构和基于子目标的规划启发式方法,但我们证明了深层次的递归目标分解可以纯粹通过学习产生,并且这样的层级结构可以有效地扩展到难题域。