LLM2D
基于自主真实世界强化学习的移动操作持续改进
Continuously Improving Mobile Manipulation with Autonomous Real-World RL
作者: Russell Mendonca, Emmanuel Panov, Bernadette Bucher, Jiuguang Wang, Deepak Pathak
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20568v1

摘要

我们提出了一种完全自主的真实世界移动操作强化学习框架,该框架可以在没有大量仪器或人工监督的情况下学习策略。这得益于 1) 任务相关自主性,它引导探索朝向物体交互并防止在目标状态附近停滞,2) 通过利用行为先验中的基本任务知识来实现高效的策略学习,以及 3) 制定通用奖励,将人类可解释的语义信息与低级、细粒度的观察结果相结合。我们证明,我们的方法允许 Spot 机器人在四项具有挑战性的移动操作任务集上持续提高其性能,在所有任务中获得平均 80% 的成功率,比现有方法提高了 3-4 倍。视频可在 https://continual-mobile-manip.github.io/ 找到。