摘要
arXiv:2505.01881v1 交叉公告类型
摘要:在多样化的环境和领域中实现鲁棒导航既需要准确的状态估计,也需要透明的决策过程。我们提出了PhysNav-DG,这是一种新颖的框架,它将经典的传感器融合与视觉语言模型的语义能力相结合。我们的双支路架构可以从多种传感器输入中预测导航动作,同时生成详细的推理链解释。修改后的自适应卡尔曼滤波器根据环境上下文动态调整其噪声参数。它利用多路原始传感器数据,并结合像LLaMA 3.2 11B和BLIP-2这样的模型的语义洞察。为了评估我们的方法,我们引入了MD-NEX基准,这是一种新颖的多领域数据集,它统一了室内导航、自主驾驶和社会导航任务,并配有真实动作和人类验证的解释。广泛的实验和消融研究表明,PhysNav-DG 的导航成功率提高了超过 20%,并且具有高效率的特点,其解释既高度具象又清晰。这项工作将高层语义推理与几何规划相结合,为更安全和更可信的自主系统建立了一个桥梁。