LLM2D

摘要

arXiv:2504.14151v1 交叉类型摘要：我们提出了LOCATE 3D，这是一种从类似“在沙发和灯之间的那个小咖啡桌”这样的指示表达式中在3D场景中定位物体的模型。LOCATE 3D在标准的参考接地基准测试中达到了新的最先进的水平，并展示了其强大的泛化能力。值得注意的是，LOCATE 3D可以直接处理传感器观测流（定位RGB-D帧），使其能够实现在机器人和AR设备上的真实世界部署。我们方法的关键在于3D-JEPA，这是一种新颖的自我监督学习（SSL）算法，适用于传感器点云。该算法使用2D基础模型（CLIP、DINO）对3D点云进行特征化处理。随后，使用遮蔽预测在潜在空间中作为预训练任务，以协助自我监督学习上下文化的点云特征。一旦训练完成，3D-JEPA编码器将与语言条件化的解码器一起微调，以联合预测3D掩码和边界框。此外，我们还引入了LOCATE 3D DATASET，这是一个新的3D参考接地数据集，涵盖了多种捕捉设置，包含超过130K的注释。这使我们可以系统地研究其泛化能力和更强的模型。