LLM2D
流作为跨领域操作接口
Flow as the Cross-Domain Manipulation Interface
作者: Mengda Xu, Zhenjia Xu, Yinghao Xu, Cheng Chi, Gordon Wetzstein, Manuela Veloso, Shuran Song
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2407.15208v2

摘要

我们提出了 Im2Flow2Act,这是一个可扩展的学习框架,使机器人能够在无需真实世界机器人训练数据的情况下获得真实世界的操作技能。Im2Flow2Act 的核心思想是使用物体流作为操作接口,弥合不同实体(例如人类和机器人)和训练环境(例如真实世界和模拟环境)之间的领域差距。Im2Flow2Act 包含两个组件:一个流生成网络和一个流条件策略。流生成网络在人类演示视频上进行训练,根据任务描述从初始场景图像生成物体流。流条件策略在模拟机器人游戏数据上进行训练,将生成的物体流映射到机器人动作,以实现所需物体运动。通过使用流作为输入,该策略可以直接部署在现实世界中,最小化模拟到现实的差距。通过利用真实世界的人类视频和模拟机器人游戏数据,我们绕过了在真实世界中遥控物理机器人的挑战,从而构建了一个可扩展的系统,适用于各种任务。我们在各种真实世界任务中展示了 Im2Flow2Act 的能力,包括操纵刚性、铰接和可变形物体。