摘要
arXiv:2504.14151v1 交叉类型
摘要:我们提出了LOCATE 3D,这是一种从类似“在沙发和灯之间的那个小咖啡桌”这样的指示表达式中在3D场景中定位物体的模型。LOCATE 3D在标准的参考接地基准测试中达到了新的最先进的水平,并展示了其强大的泛化能力。值得注意的是,LOCATE 3D可以直接处理传感器观测流(定位RGB-D帧),使其能够实现在机器人和AR设备上的真实世界部署。我们方法的关键在于3D-JEPA,这是一种新颖的自我监督学习(SSL)算法,适用于传感器点云。该算法使用2D基础模型(CLIP、DINO)对3D点云进行特征化处理。随后,使用遮蔽预测在潜在空间中作为预训练任务,以协助自我监督学习上下文化的点云特征。一旦训练完成,3D-JEPA编码器将与语言条件化的解码器一起微调,以联合预测3D掩码和边界框。此外,我们还引入了LOCATE 3D DATASET,这是一个新的3D参考接地数据集,涵盖了多种捕捉设置,包含超过130K的注释。这使我们可以系统地研究其泛化能力和更强的模型。