LLM2D

摘要

arXiv:2502.04307v1 Announce Type: cross 摘要：教机器人灵活的操作技能，例如工具使用，是一项显著的挑战。当前的方法可以大致分为两类策略：人类远程操作（模仿学习）和模拟到现实世界的强化学习。第一种方法难以实现，因为人类很难在不提供触觉反馈的情况下对不同的身体表现产生安全且灵活的动作。第二种基于RL的方法则难以跨越领域差距，并且在复杂任务中涉及高度任务特异性的奖励工程。我们的关键见解是，RL在学习低级运动基本技能方面是有效的，而人类在提供复杂的、长时程任务的粗粒度运动命令方面表现出色。因此，最佳方案可能是这两种方法的结合。在本文中，我们引入了DexterityGen (DexGen)，它使用RL来预训练大规模的灵活运动基本技能，如手持旋转或平移。然后，我们利用这个学习的数据集来训练一个灵活的基础控制器。在现实世界中，我们使用人类远程操作作为控制器的提示，以产生高度灵活的行为。我们在模拟和现实世界中评估了DexGen的有效性，证明它是一个通用控制器，可以实现输入的灵活操作命令，并在不同任务中显著提高了稳定度，测量指标为物体保持时间提高了10到100倍。值得注意的是，我们首次通过DexGen展示了前所未有的灵活技能，包括多样化对象的重新定向以及灵活的工具使用，如笔、注射器和螺丝刀。