摘要
arXiv:2504.04612v1 交叉公告类型:交叉
摘要:工具使用对于使机器人能够执行复杂的现实世界任务至关重要,利用人类的工具使用数据可以有效地教机器人。然而,现有的数据采集方法如远程操作速度慢,容易出现控制延迟,并不适合动态任务。相比之下,人类自然数据,即人类直接使用工具执行任务,提供了自然的、结构松散的交互,既高效又容易采集。基于人类与机器人可以共用工具的洞察,我们提出了一种框架,将人类数据中的工具使用知识转移到机器人上。通过使用两个RGB摄像机,本方法生成3D重建,应用高斯放样法进行新颖视图扩充,利用分割模型提取体模无关的观察结果,并利用任务空间中的工具-动作表示来训练视觉-运动策略。我们对该方法在多样化的实际任务上进行了验证,包括肉丸舀取、平底盘子、酒瓶平衡以及其他复杂的任务。相比由远程操作数据训练的扩散策略,本方法平均成功率提高了71%,且数据采集时间减少了77%,某些任务仅能通过我们的框架解决。与手持式夹爪相比,本方法将数据采集时间缩短了41%。此外,本方法弥合了体态差异,提高了对摄像机视角和机器人配置变化的鲁棒性,并且能够在不同物体和空间布局之间有效泛化。