摘要
基于扩散策略的3D机器人操作模仿学习取得了令人瞩目的进展。然而,要达到人类水平的灵巧性,需要无缝整合几何精度和语义理解。我们提出了G3Flow,一个新颖的框架,它利用基础模型构建实时语义流,这是一种动态的、以对象为中心的3D语义表示。我们的方法独特地结合了用于数字孪生创建的3D生成模型、用于语义特征提取的视觉基础模型以及用于连续语义流更新的鲁棒姿态跟踪。这种集成即使在遮挡的情况下也能实现完整的语义理解,同时消除了手动标注的需求。通过将语义流融入扩散策略,我们在终端约束操作和跨对象泛化方面都取得了显著改进。在五个模拟任务中的大量实验表明,G3Flow始终优于现有方法,在终端约束操作和跨对象泛化任务上的平均成功率分别高达68.3%和50.1%。我们的结果证明了G3Flow在增强机器人操作策略的实时动态语义特征理解方面的有效性。