摘要
我们提出了一种可泛化的三维语言特征场(g3D-LF),这是一种在大型三维语言数据集上预训练的三维表示模型,用于具身任务。我们的g3D-LF处理来自智能体的姿态RGB-D图像,以编码用于以下方面的特征场:1)从三维场景中的任何位置预测新颖的视图表示;2)生成以智能体为中心的BEV地图;3)使用上述表示中的多粒度语言查询目标。我们的表示可以泛化到未见过的环境,从而实现实时构建和动态更新。通过沿采样光线体绘制潜在特征,并通过多尺度编码器整合语义和空间关系,我们的g3D-LF通过多层次对比学习生成不同尺度和视角的表示,与多粒度语言对齐。此外,我们准备了一个大型三维语言数据集,以使特征场的表示与语言对齐。在全景和单目设置下的视觉和语言导航、零样本目标导航和情境问答任务上的大量实验,突出了我们的g3D-LF对于具身任务的显著优势和有效性。