摘要
arXiv:2502.01956v1 交叉公告类型
摘要:本文探讨了使用层次强化学习(HRL)解决长期视觉规划任务的挑战。我们的主要贡献是一种离散层次规划(DHP)方法,这是一种替代传统的基于距离的方法。我们为该方法提供了理论基础,并通过广泛的实验评估展示了其有效性。
我们的代理递归地预测长期目标下的子目标,并通过将抽象动作组合来构造计划以获得离散奖励。该方法引入了一种新的树轨迹优势估计策略,这种策略自然地鼓励更短的计划并使泛化超出了最大树深度。学习到的策略函数使代理能够高效地规划,只需要 $\log N$ 计算步骤,这使得重新规划非常高效。该代理基于软目标批评家(SAC)框架,使用在线策略想象数据进行训练。此外,我们提出了一种新颖的探索策略,使代理能够为规划模块生成相关的训练示例。在25个房间环境中的长期视觉规划任务中,我们的方法在成功率和平均回合长度方面显著优于之前的标准。此外,消融研究强调了关键模块对整体性能的单独贡献。