摘要
arXiv:2505.05622v1 类型: cross
摘要: 航空视觉与语言导航(VLN),需要无人机解释自然语言指令并在复杂的城市环境中导航,已成为将人类与机器人交互、三维空间推理和现实世界部署联系起来的关键性体现式AI挑战。尽管现有的地面VLN代理在室内外场景中取得了显著成果,但在无预定义导航图且探索长期远景时行动空间呈指数级扩大的情况下,它们在航空VLN中表现不佳。在本文中,我们提出了 \textbf{CityNavAgent},这是一种大语言模型(LLM)赋能的代理,大幅降低了城市航空VLN的导航复杂性。具体而言,我们设计了一个分层语义规划模块(HSPM),将长期任务分解为不同语义层次的子目标。代理通过实现不同能力层次的LLM来逐步达到目标。此外,我们开发了一个全局记忆模块,将历史轨迹存储为拓扑图中,以简化对访问目标的导航。广泛的基准实验显示,我们的方法达到了最先进的性能,并有着显著的提升。进一步的实验展示了CityNavAgent在连续城市环境中进行航空VLN的有效性。代码可在 \href{https://github.com/VinceOuti/CityNavAgent}{链接} 获取。