摘要
实现完全开放的语言目标并像人类探索一样探索开放场景一直是巨大的挑战。最近,视觉大型语言模型 (VLMs) 在用语言和视觉数据进行推理方面展现出了非凡的能力。虽然许多研究都集中在利用 VLMs 在开放场景和开放词汇表中进行导航,但这些努力往往无法充分利用 VLMs 的潜力,或者需要大量的计算资源。我们介绍了 VLM 导航 (NavVLM),这是一个利用设备级 VLMs 使代理能够在开放场景中针对任何特定或非特定语言目标进行导航的框架,模拟人类探索行为,无需任何事先训练。代理利用 VLM 作为其认知核心,根据任何语言目标感知环境信息,并在导航过程中不断提供探索指导,直到到达目标位置或区域。我们的框架不仅在传统特定目标设置中的成功率 (SR) 和路径长度加权成功率 (SPL) 方面取得了最先进的性能,而且还将导航能力扩展到任何开放集语言目标。我们在 Habitat 模拟器中评估了来自 Matterport 3D (MP3D)、Habitat Matterport 3D (HM3D) 和 Gibson 数据集的细节丰富的环境中的 NavVLM。凭借 VLMs 的力量,导航已进入一个新时代。