LLM2D

摘要

空中视觉与语言导航 (VLN) 是一项新任务，使无人机 (UAV) 能够通过自然语言指令和视觉线索在户外环境中导航。由于户外空中场景中复杂的空间关系，这项任务仍然具有挑战性。本文针对空中 VLN 任务提出了一种端到端的零样本框架，其中大型语言模型 (LLM) 被用作我们的动作预测代理。具体来说，我们开发了一种新颖的语义-拓扑-度量表示 (STMR) 来增强 LLM 的空间推理能力。这是通过提取和将与指令相关的路标语义掩码投影到包含周围路标位置信息的俯视图中实现的。此外，该地图被转换为矩阵表示，其中距离度量作为文本提示传递给 LLM，以便根据指令进行动作预测。在真实和模拟环境中进行的实验成功证明了我们方法的有效性和鲁棒性，在 AerialVLN-S 数据集上，Oracle 成功率 (OSR) 分别提高了 15.9% 和 12.5%（绝对值）。