LLM2D

摘要

arXiv:2411.19626v2 通告类型: 替换-交叉摘要：开放词汇3D物体功能接地旨在根据任意指令预测3D物体上的“行动可能性”区域，这对于机器人通用地感知现实场景并应对操作变化至关重要。现有方法专注于通过图像或描述3D几何体交互的语言来引入外部交互先验。然而，它们仍然容易受到有限语义空间的限制，因为它们未能利用推断不变的几何属性和潜在的交互意图。通常，人类通过多步推理来解决复杂任务，并利用关联性和类比思考应对各种情况。鉴于此，我们提出了用于开放词汇3D物体功能接地的GREAT（GeometRy-intEntion collAboraTive inference），这是一种新颖的框架，该框架挖掘对象的不变几何属性，并在潜在的交互场景中进行类比推理，形成功能知识，全面结合几何和视觉内容来定位3D物体功能。此外，我们引入了点图像功能数据集v2（PIADv2），这是目前最大的3D物体功能数据集，以支持该任务。广泛的实验表明了GREAT的有效性和优越性。相关代码和数据集可在https://yawen-shao.github.io/GREAT/获取。