摘要
arXiv:2504.08603v1 Announce Type: cross
摘要:几何上准确且语义丰富的地图表示已被证明对促进鲁棒且安全的移动机器人导航和任务规划极具价值。然而,实时地对大规模未知环境进行开放词汇语义理解仍然是一个开放的问题。本文介绍了FindAnything,这是一种将视觉-语言信息引入稠密体素子地图的开世界测绘与探索框架。借助视觉-语言特征,FindAnything弥合了纯粹几何和开放词汇语义信息之间的差距,从而实现更高层次的理解,同时允许无需任何外部来源的真实姿态信息即可探索任何环境。我们将环境表示为一系列体素占用子地图,从而产生一种在姿态更新时能够适应SLAM系统纠正漂移的稳健且准确的地图表示,允许子地图之间局部一致的表示。像素级别的视觉-语言特征从高效的eSAM生成的片段中聚集而来,随后整合到以对象为中心的体素子地图中,提供一种从开放词汇查询到三维几何的映射,既在内存使用方面也具有可扩展性。FindAnything的开放词汇地图表示在Replica数据集的封闭集评估中实现了最先进的语义准确性。这种场景理解水平使机器人能够基于通过自然语言查询选择的对象或感兴趣的区域来探索环境。我们的系统是首个部署在资源受限设备(如MAVs)上,并利用视觉-语言信息进行实际机器人任务的系统。