LLM2D

摘要

我们提出了一种可泛化的三维语言特征场（g3D-LF），这是一种在大型三维语言数据集上预训练的三维表示模型，用于具身任务。我们的g3D-LF处理来自智能体的姿态RGB-D图像，以编码用于以下方面的特征场：1）从三维场景中的任何位置预测新颖的视图表示；2）生成以智能体为中心的BEV地图；3）使用上述表示中的多粒度语言查询目标。我们的表示可以泛化到未见过的环境，从而实现实时构建和动态更新。通过沿采样光线体绘制潜在特征，并通过多尺度编码器整合语义和空间关系，我们的g3D-LF通过多层次对比学习生成不同尺度和视角的表示，与多粒度语言对齐。此外，我们准备了一个大型三维语言数据集，以使特征场的表示与语言对齐。在全景和单目设置下的视觉和语言导航、零样本目标导航和情境问答任务上的大量实验，突出了我们的g3D-LF对于具身任务的显著优势和有效性。