LLM2D

摘要

arXiv:2412.13877v2 公布类型: replace-cross 摘要: 在本文中，我们介绍了RoboMIND（多体态智能规范数据集，用于机器人操作），这是一个包含107,000个演示轨迹的数据集，涉及479个多样化的任务和96个对象类别。RoboMIND通过人类遥控收集，涵盖了全面的机器人相关信息，包括多视角观察、本体感觉机器人状态信息以及语言任务描述。为了确保数据一致性与可靠性，以适合模拟学习，RoboMIND基于一个统一的数据收集平台和标准协议构建，涵盖四种不同的机器人体态：Franka Emika Panda、UR5e、AgileX双臂机器人以及一个具有双灵巧手的人形机器人。此外，我们的数据集还包括5,000个现实世界的故障演示，每个演示都配有详细的故障原因，这有助于在策略学习过程中进行故障反思与修正。我们还在Isaac Sim模拟器中创建了一个数字孪生环境，复制了现实世界的任务和资产，这有助于低成本收集额外的训练数据，并能高效评估。为了展示我们数据集的质量和多样性，我们使用各种模仿学习方法在单任务设置中进行了广泛实验，并使用最先进的视觉-语言-动作（VLA）模型在多任务场景中进行了实验。通过利用RoboMIND，VLA模型实现了高操作成功率，并展示了强大的泛化能力。据我们所知，RoboMIND是迄今为止在统一平台上收集的最大的多体态遥控操作数据集，提供了大规模和高质量的机器人训练数据。我们的项目网页为：https://x-humanoid-robomind.github.io/。