摘要
arXiv:2502.14254v1 交叉公告类型
摘要:近期大型语言模型(LLMs)和视觉-语言模型(VLMs)的发展使其成为增强现实导航的强大工具,使代理能够利用常识和空间推理在陌生环境中有效地进行探索。现有的基于LLM的方法将全局记忆(如语义或拓扑地图)转换为语言描述以引导导航。虽然这提高了效率并减少了冗余探索,但基于语言的表示损失几何信息,阻碍了空间推理,尤其是在复杂环境中。为了解决这一问题,基于VLM的方法直接处理自中心视觉输入,以选择最佳的探索方向。然而,仅依赖第一人称视角使导航成为部分观察到的决策问题,导致在复杂环境中做出次优决策。在本文中,我们提出了一种新的基于VLM的导航框架,通过自适应地从全局记忆模块检索与任务相关的信息并将这些信息与代理的自中心观察结果结合起来,来应对这些挑战。通过动态对齐全局上下文信息和局部感知,我们的方法增强了在长期任务中的空间推理和决策能力。实验结果表明,所提出的方法在对象导航任务中超越了之前最先进的方法,提供了在增强现实导航中更加有效和可扩展的解决方案。