LLM2D
RoboMIND:多躯体智能规范数据基准——针对机器人操作
RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation
作者: Kun Wu, Chengkai Hou, Jiaming Liu, Zhengping Che, Xiaozhu Ju, Zhuqin Yang, Meng Li, Yinuo Zhao, Zhiyuan Xu, Guang Yang, Shichao Fan, Xinhua Wang, Fei Liao, Zhen Zhao, Guangyu Li, Zhao Jin, Lecheng Wang, Jilei Mao, Ning Liu, Pei Ren, Qiang Zhang, Yaoxu Lyu, Mengzhen Liu, Jingyang He, Yulin Luo, Zeyu Gao, Chenxuan Li, Chenyang Gu, Yankai Fu, Di Wu, Xingyu Wang, Sixiang Chen, Zhenyu Wang, Pengju An, Siyuan Qian, Shanghang Zhang, Jian Tang
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2412.13877v2

摘要

arXiv:2412.13877v2 公布类型: replace-cross 摘要: 在本文中,我们介绍了RoboMIND(多体态智能规范数据集,用于机器人操作),这是一个包含107,000个演示轨迹的数据集,涉及479个多样化的任务和96个对象类别。RoboMIND通过人类遥控收集,涵盖了全面的机器人相关信息,包括多视角观察、本体感觉机器人状态信息以及语言任务描述。为了确保数据一致性与可靠性,以适合模拟学习,RoboMIND基于一个统一的数据收集平台和标准协议构建,涵盖四种不同的机器人体态:Franka Emika Panda、UR5e、AgileX双臂机器人以及一个具有双灵巧手的人形机器人。此外,我们的数据集还包括5,000个现实世界的故障演示,每个演示都配有详细的故障原因,这有助于在策略学习过程中进行故障反思与修正。我们还在Isaac Sim模拟器中创建了一个数字孪生环境,复制了现实世界的任务和资产,这有助于低成本收集额外的训练数据,并能高效评估。为了展示我们数据集的质量和多样性,我们使用各种模仿学习方法在单任务设置中进行了广泛实验,并使用最先进的视觉-语言-动作(VLA)模型在多任务场景中进行了实验。通过利用RoboMIND,VLA模型实现了高操作成功率,并展示了强大的泛化能力。据我们所知,RoboMIND是迄今为止在统一平台上收集的最大的多体态遥控操作数据集,提供了大规模和高质量的机器人训练数据。我们的项目网页为:https://x-humanoid-robomind.github.io/。