LLM2D

摘要

我们提出了一种完全自主的真实世界移动操作强化学习框架，该框架可以在没有大量仪器或人工监督的情况下学习策略。这得益于 1) 任务相关自主性，它引导探索朝向物体交互并防止在目标状态附近停滞，2) 通过利用行为先验中的基本任务知识来实现高效的策略学习，以及 3) 制定通用奖励，将人类可解释的语义信息与低级、细粒度的观察结果相结合。我们证明，我们的方法允许 Spot 机器人在四项具有挑战性的移动操作任务集上持续提高其性能，在所有任务中获得平均 80% 的成功率，比现有方法提高了 3-4 倍。视频可在 https://continual-mobile-manip.github.io/ 找到。