LLM2D

摘要

arXiv:2403.07376v2 通知类型: 替换-交叉摘要：视觉-语言导航（VLN）作为嵌入式人工智能的关键研究问题，要求一个嵌入式代理遵循自然语言指令在复杂的3D环境中导航。最近的研究通过提高导航推理准确性和可解释性，突显了大型语言模型（LLMs）在VLN中的有希望的能力。然而，它们通常以离线的方式使用，通常会导致VLN任务与LLM训练语料库之间存在巨大的领域差距。本文介绍了一种名为导航思维链（NavCoT）的新型策略，我们通过参数高效的领域内训练，使LM自动进行导航决策，从而以低成本的方式显著减轻了领域差距。具体来说，在每个时间步，LM被提示预测导航思维链：1）作为世界模型，根据指令想象下一个观测；2）选择与想象最佳对齐的候选观测；3）基于前几步的推理确定动作。通过为训练构建形式化的标签，LM可以学习生成改进动作决策所需且合理的思想链条输出。在各种训练设置和流行的VLN基准测试（例如，房间到房间（R2R）、房间跨房间（RxR）、房间对房间（R4R））上的实验结果表明，NavCoT在直接动作预测变体中表现出显著的优势。通过简单的参数高效微调，我们的NavCoT在R2R数据集上的表现优于最近的基于GPT4的方法，相对改进约为7%。我们相信，NavCoT将有助于解锁更多适应任务和可扩展的基于LLM的嵌入式代理，这对开发实际的机器人应用非常有益。代码可在 https://github.com/expectorlin/NavCoT 获取。