LLM2D

摘要

arXiv:2504.04612v1 交叉公告类型：交叉摘要：工具使用对于使机器人能够执行复杂的现实世界任务至关重要，利用人类的工具使用数据可以有效地教机器人。然而，现有的数据采集方法如远程操作速度慢，容易出现控制延迟，并不适合动态任务。相比之下，人类自然数据，即人类直接使用工具执行任务，提供了自然的、结构松散的交互，既高效又容易采集。基于人类与机器人可以共用工具的洞察，我们提出了一种框架，将人类数据中的工具使用知识转移到机器人上。通过使用两个RGB摄像机，本方法生成3D重建，应用高斯放样法进行新颖视图扩充，利用分割模型提取体模无关的观察结果，并利用任务空间中的工具-动作表示来训练视觉-运动策略。我们对该方法在多样化的实际任务上进行了验证，包括肉丸舀取、平底盘子、酒瓶平衡以及其他复杂的任务。相比由远程操作数据训练的扩散策略，本方法平均成功率提高了71%，且数据采集时间减少了77%，某些任务仅能通过我们的框架解决。与手持式夹爪相比，本方法将数据采集时间缩短了41%。此外，本方法弥合了体态差异，提高了对摄像机视角和机器人配置变化的鲁棒性，并且能够在不同物体和空间布局之间有效泛化。