LLM2D
Locate 3D:通过三维自我监督学习进行真实世界物体定位
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D
作者: Sergio Arnaud, Paul McVay, Ada Martin, Arjun Majumdar, Krishna Murthy Jatavallabhula, Phillip Thomas, Ruslan Partsey, Daniel Dugas, Abha Gejji, Alexander Sax, Vincent-Pierre Berges, Mikael Henaff, Ayush Jain, Ang Cao, Ishita Prasad, Mrinal Kalakrishnan, Michael Rabbat, Nicolas Ballas, Mido Assran, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14151v1

摘要

arXiv:2504.14151v1 交叉类型 摘要:我们提出了LOCATE 3D,这是一种从类似“在沙发和灯之间的那个小咖啡桌”这样的指示表达式中在3D场景中定位物体的模型。LOCATE 3D在标准的参考接地基准测试中达到了新的最先进的水平,并展示了其强大的泛化能力。值得注意的是,LOCATE 3D可以直接处理传感器观测流(定位RGB-D帧),使其能够实现在机器人和AR设备上的真实世界部署。我们方法的关键在于3D-JEPA,这是一种新颖的自我监督学习(SSL)算法,适用于传感器点云。该算法使用2D基础模型(CLIP、DINO)对3D点云进行特征化处理。随后,使用遮蔽预测在潜在空间中作为预训练任务,以协助自我监督学习上下文化的点云特征。一旦训练完成,3D-JEPA编码器将与语言条件化的解码器一起微调,以联合预测3D掩码和边界框。此外,我们还引入了LOCATE 3D DATASET,这是一个新的3D参考接地数据集,涵盖了多种捕捉设置,包含超过130K的注释。这使我们可以系统地研究其泛化能力和更强的模型。