LLM2D

摘要

视觉语言导航在连续环境中的研究（VLN-CE）代表了具身人工智能领域的前沿，要求智能体在没有边界的3D空间中仅凭自然语言指令进行自由导航。这个任务在多模态理解、空间推理和决策制定方面提出了独特的挑战。为了解决这些挑战，我们引入了Cog-GA，这是一种基于大规模语言模型（LLMs）为VLN-CE任务量身定制的生成型代理。Cog-GA采用双管齐下的策略来模拟类似人类的认知过程。首先，它构建一个认知地图，整合时间、空间和语义元素，从而促进LLMs中的空间记忆发展。其次，Cog-GA采用一个预测机制来确定航点，战略性地优化探索轨迹以最大化导航效率。每个航点都伴随着双通道场景描述，将环境线索分类为“是什么”和“在哪里”两条流，以模拟大脑的工作方式。这种分离增强了代理的注意力焦点，使其能够辨别出导航所需的相关空间信息。一个反思机制补充了这些策略，通过捕捉先前导航经验的反馈，促进持续学习和自适应重新规划。在VLN-CE基准上的广泛评估验证了Cog-GA的前沿性能及其模拟类似人类导航行为的能力。这项研究显著推动了战略性和可解释的VLN-CE代理的发展。