摘要
arXiv:2503.14734v2 公告类型: 替换-交叉
摘要:通用机器人需要多用途的身体和智能的头脑。最近人类机器人领域的进展展示了将其作为构建人世间通用自主性的硬件平台的巨大潜力。通过对大量和多样化的数据源进行训练的机器人基础模型对于使机器人能够推理新的情况、稳健地处理现实世界的变异性以及快速学习新任务至关重要。为此,我们引入了GR00T N1,一种开放的基础模型,为人类机器人提供支持。GR00T N1 是一种具有双系统架构的视觉-语言-行动(VLA)模型。视觉-语言模块(系统2)通过视觉和语言指令来解释环境。随后的扩散变压器模块(系统1)可以在实时生成流体动作。两个模块紧密连接,并且是端到端联合训练的。我们使用异质混合的实机器人轨迹、人类视频和合成生成的数据集来训练GR00T N1。我们展示了我们的通用机器人模型GR00T N1在多个机器人形态的标准模拟基准测试中超越了最先进的模仿学习基线。此外,我们将在Fourier GR-1人类机器人上部署我们的模型,用于语言条件下的双臂操作任务,实现了高效的数据性能。