摘要
arXiv:2412.13877v2 公布类型: replace-cross
摘要: 在本文中,我们介绍了RoboMIND(多体态智能规范数据集,用于机器人操作),这是一个包含107,000个演示轨迹的数据集,涉及479个多样化的任务和96个对象类别。RoboMIND通过人类遥控收集,涵盖了全面的机器人相关信息,包括多视角观察、本体感觉机器人状态信息以及语言任务描述。为了确保数据一致性与可靠性,以适合模拟学习,RoboMIND基于一个统一的数据收集平台和标准协议构建,涵盖四种不同的机器人体态:Franka Emika Panda、UR5e、AgileX双臂机器人以及一个具有双灵巧手的人形机器人。此外,我们的数据集还包括5,000个现实世界的故障演示,每个演示都配有详细的故障原因,这有助于在策略学习过程中进行故障反思与修正。我们还在Isaac Sim模拟器中创建了一个数字孪生环境,复制了现实世界的任务和资产,这有助于低成本收集额外的训练数据,并能高效评估。为了展示我们数据集的质量和多样性,我们使用各种模仿学习方法在单任务设置中进行了广泛实验,并使用最先进的视觉-语言-动作(VLA)模型在多任务场景中进行了实验。通过利用RoboMIND,VLA模型实现了高操作成功率,并展示了强大的泛化能力。据我们所知,RoboMIND是迄今为止在统一平台上收集的最大的多体态遥控操作数据集,提供了大规模和高质量的机器人训练数据。我们的项目网页为:https://x-humanoid-robomind.github.io/。