摘要
arXiv:2411.19626v2 通告类型: 替换-交叉
摘要:开放词汇3D物体功能接地旨在根据任意指令预测3D物体上的“行动可能性”区域,这对于机器人通用地感知现实场景并应对操作变化至关重要。现有方法专注于通过图像或描述3D几何体交互的语言来引入外部交互先验。然而,它们仍然容易受到有限语义空间的限制,因为它们未能利用推断不变的几何属性和潜在的交互意图。通常,人类通过多步推理来解决复杂任务,并利用关联性和类比思考应对各种情况。鉴于此,我们提出了用于开放词汇3D物体功能接地的GREAT(GeometRy-intEntion collAboraTive inference),这是一种新颖的框架,该框架挖掘对象的不变几何属性,并在潜在的交互场景中进行类比推理,形成功能知识,全面结合几何和视觉内容来定位3D物体功能。此外,我们引入了点图像功能数据集v2(PIADv2),这是目前最大的3D物体功能数据集,以支持该任务。广泛的实验表明了GREAT的有效性和优越性。相关代码和数据集可在https://yawen-shao.github.io/GREAT/获取。