摘要
arXiv:2502.07306v1 交叉类型: cross
摘要: 在本文中,我们提出了一个多模块方法来解决视觉语言导航(VLN)任务,通过将问题分解为四个子模块来实现,这些子模块在零样本设置中使用了最先进的大型语言模型(LLMs)和视觉语言模型(VLMs)。给定自然语言的导航指令,我们首先提示LLM提取待访问的地标及其访问顺序。假设已知的环境模型,我们检索最后一个地标前的top-k位置,并使用环境拓扑图上的最短路径算法生成从起始位置到最后一个地标之间的k个路径假设。每个路径假设由全景图像序列表示。然后,我们使用动态规划计算全景图像序列与地标名称序列之间的对齐得分,并将此得分与VLM获得的匹配得分进行比较。最后,我们计算生成最高对齐得分假设的nDTW度量来评估路径精度。我们在复杂的R2R-Habitat指令数据集上展示了与其他使用联合语义图(如VLMaps)的方法相比的优越性能,并详细量化了视觉定位对导航性能的影响。