LLM2D

摘要

arXiv:2502.01956v1 交叉公告类型摘要：本文探讨了使用层次强化学习（HRL）解决长期视觉规划任务的挑战。我们的主要贡献是一种离散层次规划（DHP）方法，这是一种替代传统的基于距离的方法。我们为该方法提供了理论基础，并通过广泛的实验评估展示了其有效性。我们的代理递归地预测长期目标下的子目标，并通过将抽象动作组合来构造计划以获得离散奖励。该方法引入了一种新的树轨迹优势估计策略，这种策略自然地鼓励更短的计划并使泛化超出了最大树深度。学习到的策略函数使代理能够高效地规划，只需要 $\log N$ 计算步骤，这使得重新规划非常高效。该代理基于软目标批评家（SAC）框架，使用在线策略想象数据进行训练。此外，我们提出了一种新颖的探索策略，使代理能够为规划模块生成相关的训练示例。在25个房间环境中的长期视觉规划任务中，我们的方法在成功率和平均回合长度方面显著优于之前的标准。此外，消融研究强调了关键模块对整体性能的单独贡献。