摘要
双臂操作在机器人学中至关重要,但由于协调两只机械臂的固有复杂性(导致多模态动作分布)以及训练数据的稀缺性,开发基础模型极具挑战性。本文提出了机器人扩散Transformer(RDT),一种用于双臂操作的开创性扩散基础模型。RDT基于扩散模型有效地表示多模态,并创新性地设计了可扩展的Transformer来处理多模态输入的异质性,并捕捉机器人数据的非线性性和高频特性。为了解决数据稀缺性,我们进一步引入了物理可解释的统一动作空间,该空间可以统一各种机器人的动作表示,同时保留原始动作的物理意义,从而促进可转移物理知识的学习。通过这些设计,我们成功地在迄今为止最大的多机器人数据集集合上对RDT进行了预训练,并将其扩展到12亿个参数,这是用于机器人操作的最大扩散型基础模型。最后,我们在一个包含超过6000个情节的自建多任务双臂数据集上对RDT进行了微调,以完善其操作能力。在真实机器人上的实验表明,RDT显著优于现有方法。它表现出对看不见的物体和场景的零样本泛化能力,理解并遵循语言指令,只需1~5次演示即可学习新技能,并有效地处理复杂的、灵巧的任务。有关代码和视频,请参阅https://rdt-robotics.github.io/rdt-robotics/。