LLM2D
通过潜在空间反向规划实现高效的机器人策略学习
Efficient Robotic Policy Learning via Latent Space Backward Planning
作者: Dongxiu Liu, Haoyi Niu, Zhihao Wang, Jinliang Zheng, Yinan Zheng, Zhonghong Ou, Jianming Hu, Jianxiong Li, Xianyuan Zhan
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06861v1

摘要

arXiv:2505.06861v1 交叉类型: cross 摘要: 当前的机器人规划方法经常依赖于预测多帧的完整像素细节图像。虽然这种精细的方法可以作为一个通用的世界模型,但它为下游策略学习引入了两个重大挑战:高昂的计算成本限制了实时部署,以及累积的不准确性可能导致对行动提取的误导。使用粗略粒度的子目标部分缓解了效率问题。然而,它们的前瞻性规划方案仍然会由于累积错误而导致任务脱轨的预测,从而与长期目标产生偏差。这提出了一个关键问题:机器人规划能否在长期多阶段任务中既高效又足够准确,以实现实时控制?为了解决这一问题,我们提出了一种潜在空间反向规划方案(LBP),该方案首先将任务接地为最终的潜在目标,然后递归预测更接近当前状态的中间子目标。接地的最终目标使反向子目标规划始终保持对任务完成的意识,从而在整个规划时域内促进任务相关的预测。基于子目标的策略结合了一个可学习的标记来总结子目标序列,并决定每个子目标如何指导行动提取。通过广泛的仿真和实际机器人长期实验,我们展示了LBP优于现有的精细和前瞻性规划方法,实现了SOTA性能。项目页面: https://lbp-authors.github.io