LLM2D

摘要

arXiv:2505.07096v1 类型: cross 摘要: 人类视频为训练机器人操作策略提供了一种可扩展的方法，但缺乏标准模仿学习算法所需的动作标签。现有的跨体态方法尝试将人类动作映射到机器人动作，但在体态差异显著时往往失败。我们提出了X-Sim，一种从真实到模拟再到真实的框架，该框架使用物体运动作为密集且可转移的学习信号。X-Sim 首先从RGBD的人类视频中重建一个逼真的模拟，并追踪物体轨迹以定义以物体为中心的奖励。这些奖励用于在模拟环境中训练强化学习(RL)策略。学习到的策略然后通过合成渲染具有不同视角和照明条件的卷积来提取为图像条件化的扩散策略。为了在现实世界中转移，X-Si 引入了一种在线领域的自适应技术，在部署过程中对现实和模拟观测进行对齐。重要的是，X-Sim 不需要任何机器人远程操作数据。我们在两种环境中对5项操作任务进行了评估，并表明它：（1）在平均值上比手部跟踪和模拟到现实的基本方法提高了30%的任务进度；（2）用数据收集时间减少10倍匹配行为克隆；（3）能够应用于新的相机视角和测试时的变化。代码和视频可在https://portal-cornell.github.io/X-Sim/获取。