LLM2D
Cog-GA:基于大语言模型的连续环境视觉语言导航生成代理
Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.02522v2

摘要

视觉语言导航在连续环境中的研究(VLN-CE)代表了具身人工智能领域的前沿,要求智能体在没有边界的3D空间中仅凭自然语言指令进行自由导航。这个任务在多模态理解、空间推理和决策制定方面提出了独特的挑战。为了解决这些挑战,我们引入了Cog-GA,这是一种基于大规模语言模型(LLMs)为VLN-CE任务量身定制的生成型代理。Cog-GA采用双管齐下的策略来模拟类似人类的认知过程。首先,它构建一个认知地图,整合时间、空间和语义元素,从而促进LLMs中的空间记忆发展。其次,Cog-GA采用一个预测机制来确定航点,战略性地优化探索轨迹以最大化导航效率。每个航点都伴随着双通道场景描述,将环境线索分类为“是什么”和“在哪里”两条流,以模拟大脑的工作方式。这种分离增强了代理的注意力焦点,使其能够辨别出导航所需的相关空间信息。一个反思机制补充了这些策略,通过捕捉先前导航经验的反馈,促进持续学习和自适应重新规划。在VLN-CE基准上的广泛评估验证了Cog-GA的前沿性能及其模拟类似人类导航行为的能力。这项研究显著推动了战略性和可解释的VLN-CE代理的发展。