LLM2D

摘要

arXiv:2502.01956v1 宣告类型：交叉摘要：在本文中，我们利用层次 reinforcement 学习（HRL）解决了长期视觉规划任务的挑战。我们的主要贡献是一种离散层次规划（DHP）方法，这与传统的基于距离的方法不同。我们为该方法提供了理论基础，并通过广泛的实证评估展示了其有效性。我们的代理递归地在长期目标的背景下预测子目标，并通过组合抽象操作构建计划以获得离散奖励。该方法引入了一种新的树轨迹优势评估策略，这固有地鼓励生成更短的计划，并允许在最大树深度之外进行泛化。学习到的策略函数使代理能够高效地规划，只需要 \(\log N\) 计算步骤，从而使得重新规划高度高效。基于软actor-批评（SAC）框架的代理使用在线策略想象数据进行训练。此外，我们提出了一种新的探索策略，使代理能够生成用于规划模块的相关训练示例。我们在一个包含25个房间的环境中对长期视觉规划任务进行了评估，结果表明该方法在成功率和平均episode长度方面显著优于以前的基准。此外，消融研究突显了各个模块对整体性能的独立贡献。