摘要
arXiv:2306.05716v5 通告类型: replace-cross
摘要: 在现实世界中提高通用机器人操作代理的一般化能力长期以来一直是一个重大挑战。现有的方法往往依赖于收集大规模的机器人数据,这既昂贵又耗时,例如RT-1数据集。然而,由于数据多样性不足,这些方法通常在开放域场景中处理新对象和多样化环境时会受到限制。在本文中,我们提出了一种新的范式,该范式有效地利用了由互联网规模基础模型生成的语言推理分割掩模,以条件化机器人操作任务。通过将掩模模式整合到端到端策略模型中,该模式结合了来自视觉基础模型推断出的语义、几何和时间相关性先验,我们的方法可以有效地和鲁棒地感知物体姿态,并实现样本高效的泛化学习,包括新的物体实例、语义类别和未见过的背景。我们首先介绍了一系列基础模型,以跨多个任务ground自然语言需求。其次,我们基于模仿学习开发了一种双流二维策略模型,该模型处理原始图像和物体掩模,以局部-全局感知方式预测机器人动作。在Franka Emika 机器人臂上进行的广泛现实世界实验表明了我们提出的范式和策略架构的有效性。演示可以在我们提交的视频中找到,更全面的演示可以在link1或link2中找到。