LLM2D

摘要

arXiv:2504.12609v1 类型: cross 摘要：教会机器人灵巧操作技能通常需要收集数百个使用穿戴设备或远程操作的演示，这一过程难以扩大规模。人类与物体交互的视频更容易收集和扩大规模，但直接利用这些视频进行机器人学习却困难重重，因为缺乏明确的动作标签，以及机器人手和人类手之间形态上的差异。我们提出了Human2Sim2Robot，这是一种全新的从现实到模拟再到现实的框架，用于仅使用一个人类演示任务的单个RGB-D视频来训练灵巧操作策略。我们的方法利用模拟中的强化学习(RL)来跨越人类和机器人实体的差距，而不依赖穿戴设备、远程操作或通常对于模仿学习方法来说必不可少的大规模数据收集。从演示中，我们提取了两个任务特定的组件：(1) 对象姿态轨迹，以定义以对象为中心且与实体无关的奖励函数；(2) 预操作手的姿态，以在RL训练期间初始化和引导探索。我们发现这两个组件对于学习所需的任务非常有效，可以消除任务特定的奖励塑造和调整的需要。实验结果显示，Human2Sim2Robot 在抓取、非抓握操作和多步任务中分别比无意识的目标开放环轨迹回放高出 55%，比带有数据增强的数据模仿学习高出 68%。项目网站：https://human2sim2robot.github.io