摘要
arXiv:2411.16425v2 宣告类型: 替换-交叉
摘要: 零样本物体导航 (ZSON) 任务要求嵌入式代理通过在不熟悉环境中导航来找到以前未见过的物体。这种以目标为导向的探索很大程度上依赖于对环境空间信息的感知、理解和推理。然而,当前基于大语言模型的方法将视觉观察转换为语言描述并在语言空间中进行推理,导致空间信息的丢失。在本文中,我们引入了 TopV-Nav,这是一种基于多大语言模型的方法,可以直接在包含充足空间信息的正视图地图上进行推理。为了充分利用 Top-view 角度下多大语言模型的空间推理潜力,我们提出了自适应视觉提示生成 (AVPG) 方法,以自适应地构建语义丰富的正视图地图。这使得代理可以直接利用正视图地图中包含的空间信息进行深入推理。此外,我们设计了一种动态地图缩放 (DMS) 机制,可以动态地在优选尺度下缩放正视图地图,增强局部精细推理。另外,我们设计了一种以潜在目标驱动 (PTD) 机制来预测和利用目标位置,促进全局和类人探索。在 MP3D 和 HM3D 数据集上的实验表明,我们的 TopV-Nav 具有优越性。