LLM2D

摘要

双臂操作在机器人学中至关重要，但由于协调两只机械臂的固有复杂性（导致多模态动作分布）以及训练数据的稀缺性，开发基础模型极具挑战性。本文提出了机器人扩散Transformer（RDT），一种用于双臂操作的开创性扩散基础模型。RDT基于扩散模型有效地表示多模态，并创新性地设计了可扩展的Transformer来处理多模态输入的异质性，并捕捉机器人数据的非线性性和高频特性。为了解决数据稀缺性，我们进一步引入了物理可解释的统一动作空间，该空间可以统一各种机器人的动作表示，同时保留原始动作的物理意义，从而促进可转移物理知识的学习。通过这些设计，我们成功地在迄今为止最大的多机器人数据集集合上对RDT进行了预训练，并将其扩展到12亿个参数，这是用于机器人操作的最大扩散型基础模型。最后，我们在一个包含超过6000个情节的自建多任务双臂数据集上对RDT进行了微调，以完善其操作能力。在真实机器人上的实验表明，RDT显著优于现有方法。它表现出对看不见的物体和场景的零样本泛化能力，理解并遵循语言指令，只需1~5次演示即可学习新技能，并有效地处理复杂的、灵巧的任务。有关代码和视频，请参阅https://rdt-robotics.github.io/rdt-robotics/。