LLM2D

摘要

我们提出了 RiEMann，一个端到端的近实时 SE(3) 等变机器人操作模仿学习框架，该框架从场景点云输入中进行学习。与依赖于描述符场匹配的先前方法相比，RiEMann 直接预测用于操作的目标物体姿态，无需任何物体分割。RiEMann 从零开始学习一项操作任务，仅需 5 到 10 次演示，可以泛化到未曾见过的 SE(3) 变换和目标物体的实例，抵御干扰物体的视觉干扰，并跟踪目标物体的近实时姿态变化。RiEMann 可扩展的动作空间便于添加自定义等变动作，例如旋转水龙头方向，这使得 RiEMann 可以进行关节物体操作。在模拟和真实世界 6 自由度机器人操作实验中，我们在 5 类操作任务（总共 25 种变体）上测试了 RiEMann，结果表明 RiEMann 在任务成功率和预测姿态的 SE(3) 测地距离误差方面均优于基线（减少了 68.6%），并且实现了 5.4 帧每秒 (FPS) 的网络推理速度。代码和视频结果可在 https://riemann-web.github.io/ 上获得。