摘要
视觉和语言导航 (VLN) 旨在通过整合视觉和语言线索来引导自主代理在现实世界环境中进行导航。尽管地面级导航取得了显著进展,但使用这些模态进行空中导航的探索仍然有限。这种差距主要源于缺乏适合现实世界城市规模空中导航研究的资源。为了弥补这一差距,我们介绍了 CityNav,一个专门为语言引导的空中导航而设计的新数据集,该数据集位于真实城市的逼真 3D 环境中。CityNav 包含 32,000 条自然语言描述,这些描述与人类演示轨迹配对,通过新开发的基于 Web 的 3D 模拟器收集。每个描述都识别了一个导航目标,利用实际城市中地标的名称和位置。作为解决这一挑战的第一步,我们提供了导航代理的基线模型,这些模型包含一个内部 2D 空间地图,代表描述中引用的地标。我们在 CityNav 数据集上对最新的空中导航方法以及我们提出的基线模型进行了基准测试。结果表明:(i)我们训练于人类演示轨迹的空中代理模型,其性能大大优于那些训练于最短路径轨迹的模型;(ii)在城市规模上,包含 2D 空间地图信息显着且稳健地提高了导航性能;(iii)尽管使用了地图信息,但我们具有挑战性的 CityNav 数据集表明,我们的基线模型与人类性能之间仍然存在持续的性能差距。为了促进空中 VLN 的进一步研究,我们在 https://water-cookie.github.io/city-nav-proj/ 公开了数据集和代码。