摘要
arXiv:2504.03597v1 宣传类型:跨领域
摘要:近年来,行为克隆的进步使机器人能够执行复杂的操作任务。然而,准确评估训练性能仍然具有挑战性,特别是在实际应用中,因为行为克隆损失与实际任务成功率的相关性往往较差。因此,研究人员不得不依靠成本高昂且耗时的实地评估中提取的成功率指标,这使得识别最优策略和检测过拟合或欠拟合变得不切实际。为了解决这些问题,我们提出了一种名为real-is-sim的新行为克隆框架,在整个策略开发流程中(包括数据收集、训练和部署)都采用了动态数字孪生(基于Embodied Gaussians)。通过持续使模拟世界与物理世界保持一致,可以从模拟器中提取状态并在现实世界中收集演示。模拟器通过从任何视角渲染图像输入或从场景中包含的实体中提取低级状态信息,提供了灵活的状态表示。在训练过程中,策略可以以离线和高度并行的方式在模拟器中直接进行评估。最后,在部署阶段,策略在模拟器中运行,现实中的机器人直接跟踪模拟机器人的关节,有效地解耦策略执行与实际硬件,缓解了传统的领域迁移难题。我们通过在PushT操作任务上验证real-is-sim,证明了模拟器中获得的成功率与实际世界评估之间存在很强的相关性。我们的系统视频可以在https://realissim.rai-inst.com找到。