LLM2D
使用地标加速层次强化学习解决 Sokoban
Solving Sokoban using Hierarchical Reinforcement Learning with Landmarks
作者: Sergey Pastukhov
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04366v1

摘要

arXiv:2504.04366v1 Announce Type: 新增 摘要: 我们提出了一种新颖的分层强化学习(HRL)框架,通过学习到的子目标进行自上而下的递归规划,并成功应用于复杂的组合益智游戏Sokoban。我们的方法构建了一个六层的策略层级,其中每一层更高的策略为以下一层生成子目标。所有的子目标和策略都是从零开始端到端学习的,不需要任何领域知识。我们的实验结果表明,该代理可以从单个高层调用生成长的动作序列。虽然之前的工作探索了2-3层级的层级结构和基于子目标的规划启发式方法,但我们证明了深层次的递归目标分解可以纯粹通过学习产生,并且这样的层级结构可以有效地扩展到难题域。