LLM2D

摘要

利用大型语言模型（LLMs）的显著进步，人们正积极探索利用LLMs进行指令跟随的机器人导航。这一趋势突显了LLMs在泛化导航推理和多样化语言理解方面的潜力。然而，与之前的下游专业模型相比，在视觉与语言导航（VLN）任务中集成LLMs时，代理性能存在显著差异。此外，语言在解释和促进代理交互中的固有能力在这些集成中往往未被充分利用。本文旨在弥合VLN专业模型与基于LLM的导航范式之间的差距，同时保持LLMs在生成语言导航推理方面的解释能力。通过在冻结的LLM中对齐视觉内容，我们实现了LLMs对视觉观察的理解，并探索了一种将LLMs与导航策略网络结合以进行有效动作预测和导航推理的方法。我们展示了所提出方法的数据效率，并消除了基于LM的代理与最先进的VLN专家之间的差距。