摘要
arXiv:2502.11142v1 介绍类型: 新颖
摘要: 视觉-语言导航(VLN)是体感代理的一项基本技能,使它们能够遵循自然语言指令在3D环境中导航。高性能的导航模型需要大量的训练数据,手动标注数据的高成本严重阻碍了这一领域的发展。因此,一些先前的方法将轨迹视频翻译成逐步指令以扩展数据,但这些指令并不很好地与用户简短描述目的地或特定需求的沟通风格匹配。此外,局部导航轨迹忽视了全局上下文和高层次的任务规划。为了解决这些问题,我们提出了一种检索增强生成(RAG)框架NavRAG,用于生成用户需求指令以进行VLN。NavRAG利用大规模语言模型(LLM)构建从全局布局到局部细节的分层场景描述树,然后模拟具有特定需求的多种用户角色以从场景树中检索信息,使用LLM生成多样化的指令。我们对861个场景中的超过200万条导航指令进行了标注,并评估了训练模型的数据质量和导航性能。