摘要
零样本目标导航 (ZSON) 任务要求具身智能体在陌生的环境中导航,找到之前从未见过的物体。这种目标导向的探索严重依赖于感知、理解和推理环境空间信息的能力。然而,目前的基于大型语言模型 (LLM) 的方法将视觉观察转换为语言描述并在语言空间中进行推理,导致空间信息的丢失。本文介绍了 TopV-Nav,一种基于多模态大型语言模型 (MLLM) 的方法,它可以直接利用具有完整空间信息的俯视图进行推理。为了充分发挥 MLLM 在俯视图视角下的空间推理潜力,我们提出了自适应视觉提示生成 (AVPG) 方法,以自适应地构建语义丰富的俯视图。这使得智能体能够直接利用俯视图中包含的空间信息进行彻底的推理。此外,我们设计了一种动态地图缩放 (DMS) 机制,以动态缩放俯视图到首选比例,增强局部细粒度推理。此外,我们设计了一种目标引导导航 (TGN) 机制来预测和利用目标位置,促进全局和类人探索。在 MP3D 和 HM3D 基准测试上的实验结果证明了 TopV-Nav 的优越性,例如,在 HM3D 上成功率 (SR) 提高了 +3.9%,平均成功率 (SPL) 提高了 +2.0%。