摘要
arXiv:2505.07096v2 Announce Type: replace-cross
摘要:人类视频为训练机器人操作策略提供了一种可扩展的方法,但缺乏标准模仿学习算法所需的动作标签。现有的跨体态方法试图将人类动作映射到机器人动作,但在体态差异显著时往往失败。我们提出 X-Sim,一个从真实到模拟再到真实的框架,该框架使用物体运动作为密集且可转移的信号来学习机器人策略。X-Sim 首先从 RGBD 人类视频重构一个照片级真实的模拟,并跟踪物体轨迹来定义以物体为中心的奖励。这些奖励用于在模拟中训练强化学习(RL)策略。然后,使用不同视角和光照渲染的合成卷积将学到的策略提炼为条件扩散策略。为了在现实世界中传输,X-Sim 引入了一种在线领域适应技术,在部署期间对真实和模拟观测进行对齐。重要的是,X-Sim 不需要任何机器人远程操作数据。我们在 2 个环境中的 5 个操作任务上评估了它,并且结果显示:(1)X-Sim 在平均上比手部追踪和模拟到现实的基线提高了 30% 的任务进度;(2)其数据收集时间减少了 10 倍,但行为克隆效果相当;(3)能够适应新的摄像头视角和测试时的变化。代码和视频可在 https://portal-cornell.github.io/X-Sim/ 上获得。