LLM2D
基于对应关系的知觉运动策略:在真实世界中的灵巧 manipulation
CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World
作者: Yankai Fu, Qiuxuan Feng, Ning Chen, Zichen Zhou, Mengzhen Liu, Mingdong Wu, Tianxing Chen, Shanyu Rong, Jiaming Liu, Hao Dong, Shanghang Zhang
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2502.08449v2

摘要

arXiv:2502.08449v2 宣告类型: 替换-交叉 摘要:在机器人操控领域,实现类人的灵巧性是一个关键目标。最近基于3D模仿学习的进展展示了有希望的结果,为实现这一目标提供了一条有效途径。然而,获得高质量的3D表示面临两个关键问题:(1)单视角相机捕获的点云质量受到相机分辨率、定位以及灵巧手引起的遮挡等因素的重大影响;(2)全局点云缺乏关键的接触信息和空间对应关系,这对于精细的灵巧操控任务是必不可少的。为了解决这些问题,我们提出了CordViP,一种新颖的框架,通过利用物体和机器人本体感受的鲁棒6D姿态估计来构建和学习对应关系。具体而言,我们首先引入了交互感知点云,这些点云建立了物体与手之间的对应关系。然后,这些点云用于我们的预训练策略中,我们还结合了以物体为中心的接触图和手-臂协调信息,有效地捕捉了空间和时间动态。我们的方法展示了卓越的灵巧操控能力,在六个真实世界任务中取得了最先进的性能,远远超过了其他基线方法。实验结果还突显了CordViP在不同物体、视角和场景下的出色泛化能力和鲁棒性。有关代码和视频,请访问 https://aureleopku.github.io/CordViP。