摘要
arXiv:2504.16516v1 Announce Type: cross
摘要:视觉-语言导航(VLN)旨在使具身智能体能够遵循自然语言指令并到达现实世界环境中的目标位置。尽管先前的方法通常依赖于全局场景表示或物体级特征,但这些方法不足以捕捉进行准确导航所必需的跨模态复杂交互。在本文中,我们提出了一种多级融合和推理架构(MFRA)以增强智能体对视觉观察、语言指令和导航历史进行推理的能力。具体而言,MFRA 引入了一种分层融合机制,该机制在多种模态之间聚合从低级视觉线索到高级语义概念的多级特征。我们进一步设计了一个推理模块,该模块利用融合表示通过指令导向的注意力和动态上下文集成来推断导航动作。通过选择性地捕捉和组合相关视觉、语义和时间信号,MFRA 提高了复杂导航场景中的决策准确性。在基准 VLN 数据集 REVERIE、R2R 和 SOON 上的广泛实验表明,MFRA 的性能优于现有最先进的方法,验证了多级模态融合在具身导航中的有效性。