摘要
arXiv:2504.08806v1 通告类型: 新
摘要: 提升移动机器人在空间感知方面的能力对于实现具身视觉-语言导航(VLN)至关重要。尽管在模拟环境中取得了显著进展,但直接将这些能力转移到现实世界场景中通常会导致严重的幻觉现象,使机器人丧失有效的空间意识。为了解决这一问题,我们提出了一种受生物空间认知理论和记忆地图理论启发的空间认知导航框架 BrainNav。BrainNav 结合了双地图(坐标地图和拓扑地图)和双方向(相对方向和绝对方向)策略,通过动态场景捕获和路径规划实现实时导航。其五个核心模块——海马体记忆中枢、视觉皮层感知引擎、顶叶空间构建器、前额叶决策中心和小脑运动执行单元——模拟生物认知功能,以减少空间幻觉并增强适应性。在使用 Limo Pro 机器人进行的零样本现实世界实验室环境中,BrainNav 兼容 GPT-4,其性能优于现有的 SOTA 视觉-语言导航在连续环境中的方法,无需微调。