LLM2D
NavCoT: 通过学习解耦推理来提升基于LLM的视觉-语言导航
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning
作者: Bingqian Lin, Yunshuang Nie, Ziming Wei, Jiaqi Chen, Shikui Ma, Jianhua Han, Hang Xu, Xiaojun Chang, Xiaodan Liang
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2403.07376v2

摘要

arXiv:2403.07376v2 通知类型: 替换-交叉 摘要:视觉-语言导航(VLN)作为嵌入式人工智能的关键研究问题,要求一个嵌入式代理遵循自然语言指令在复杂的3D环境中导航。最近的研究通过提高导航推理准确性和可解释性,突显了大型语言模型(LLMs)在VLN中的有希望的能力。然而,它们通常以离线的方式使用,通常会导致VLN任务与LLM训练语料库之间存在巨大的领域差距。本文介绍了一种名为导航思维链(NavCoT)的新型策略,我们通过参数高效的领域内训练,使LM自动进行导航决策,从而以低成本的方式显著减轻了领域差距。具体来说,在每个时间步,LM被提示预测导航思维链:1)作为世界模型,根据指令想象下一个观测;2)选择与想象最佳对齐的候选观测;3)基于前几步的推理确定动作。通过为训练构建形式化的标签,LM可以学习生成改进动作决策所需且合理的思想链条输出。在各种训练设置和流行的VLN基准测试(例如,房间到房间(R2R)、房间跨房间(RxR)、房间对房间(R4R))上的实验结果表明,NavCoT在直接动作预测变体中表现出显著的优势。通过简单的参数高效微调,我们的NavCoT在R2R数据集上的表现优于最近的基于GPT4的方法,相对改进约为7%。我们相信,NavCoT将有助于解锁更多适应任务和可扩展的基于LLM的嵌入式代理,这对开发实际的机器人应用非常有益。代码可在 https://github.com/expectorlin/NavCoT 获取。