LLM2D

摘要

arXiv:2502.08449v2 宣告类型: 替换-交叉摘要：在机器人操控领域，实现类人的灵巧性是一个关键目标。最近基于3D模仿学习的进展展示了有希望的结果，为实现这一目标提供了一条有效途径。然而，获得高质量的3D表示面临两个关键问题：（1）单视角相机捕获的点云质量受到相机分辨率、定位以及灵巧手引起的遮挡等因素的重大影响；（2）全局点云缺乏关键的接触信息和空间对应关系，这对于精细的灵巧操控任务是必不可少的。为了解决这些问题，我们提出了CordViP，一种新颖的框架，通过利用物体和机器人本体感受的鲁棒6D姿态估计来构建和学习对应关系。具体而言，我们首先引入了交互感知点云，这些点云建立了物体与手之间的对应关系。然后，这些点云用于我们的预训练策略中，我们还结合了以物体为中心的接触图和手-臂协调信息，有效地捕捉了空间和时间动态。我们的方法展示了卓越的灵巧操控能力，在六个真实世界任务中取得了最先进的性能，远远超过了其他基线方法。实验结果还突显了CordViP在不同物体、视角和场景下的出色泛化能力和鲁棒性。有关代码和视频，请访问 https://aureleopku.github.io/CordViP。