LLM2D

摘要

arXiv:2502.08449v1 宣告类型: cross 摘要：实现类人的灵巧性是机器人操作领域的一个关键目标。基于3D的模仿学习的最近进展展示了有希望的结果，提供了一条有效的途径来实现这一目标。然而，获得高质量的3D表示存在两个关键问题：（1）单视图相机捕捉的点云质量会受到诸如相机分辨率、定位以及由灵巧手造成的遮挡等因素的显著影响；（2）全局点云缺乏对于精细灵巧操作任务至关重要的接触信息和空间对应关系。为了解决这些限制，我们提出了一种名为CordViP的新框架，该框架通过利用物体和机器人自身感知的鲁棒6D姿态估计来构造和学习对应关系。具体而言，我们首先引入了感知交互的点云，该点云在物体和手中建立了对应关系。这些点云随后用于我们的预训练策略中，我们还在其中整合了以物体为中心的接触图和手-臂协调信息，有效地捕捉了空间和时间动态。我们的方法在四个真实任务中展示了卓越的操作灵巧能力，平均成功率达到了90%，大幅超越了其他基线方法。实验结果还强调了CordViP在不同物体、视角和场景下的优越泛化能力和鲁棒性。代码和视频可在https://aureleopku.github.io/CordViP获取。