摘要
arXiv:2502.08449v2 宣告类型: 替换-交叉
摘要:在机器人操控领域,实现类人的灵巧性是一个关键目标。最近基于3D模仿学习的进展展示了有希望的结果,为实现这一目标提供了一条有效途径。然而,获得高质量的3D表示面临两个关键问题:(1)单视角相机捕获的点云质量受到相机分辨率、定位以及灵巧手引起的遮挡等因素的重大影响;(2)全局点云缺乏关键的接触信息和空间对应关系,这对于精细的灵巧操控任务是必不可少的。为了解决这些问题,我们提出了CordViP,一种新颖的框架,通过利用物体和机器人本体感受的鲁棒6D姿态估计来构建和学习对应关系。具体而言,我们首先引入了交互感知点云,这些点云建立了物体与手之间的对应关系。然后,这些点云用于我们的预训练策略中,我们还结合了以物体为中心的接触图和手-臂协调信息,有效地捕捉了空间和时间动态。我们的方法展示了卓越的灵巧操控能力,在六个真实世界任务中取得了最先进的性能,远远超过了其他基线方法。实验结果还突显了CordViP在不同物体、视角和场景下的出色泛化能力和鲁棒性。有关代码和视频,请访问 https://aureleopku.github.io/CordViP。