LLM2D
DHP: 离散分层规划用于分层强化学习代理
DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents
作者: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri
发布日期: 2/5/2025
arXiv ID: 2502.01956

摘要

arXiv:2502.01956v1 宣告类型:交叉 摘要:在本文中,我们利用层次 reinforcement 学习(HRL)解决了长期视觉规划任务的挑战。我们的主要贡献是一种离散层次规划(DHP)方法,这与传统的基于距离的方法不同。我们为该方法提供了理论基础,并通过广泛的实证评估展示了其有效性。 我们的代理递归地在长期目标的背景下预测子目标,并通过组合抽象操作构建计划以获得离散奖励。该方法引入了一种新的树轨迹优势评估策略,这固有地鼓励生成更短的计划,并允许在最大树深度之外进行泛化。学习到的策略函数使代理能够高效地规划,只需要 \(\log N\) 计算步骤,从而使得重新规划高度高效。基于软actor-批评(SAC)框架的代理使用在线策略想象数据进行训练。此外,我们提出了一种新的探索策略,使代理能够生成用于规划模块的相关训练示例。我们在一个包含25个房间的环境中对长期视觉规划任务进行了评估,结果表明该方法在成功率和平均episode长度方面显著优于以前的基准。此外,消融研究突显了各个模块对整体性能的独立贡献。