LLM2D

摘要

arXiv:2504.08603v2 宣告类型: replace-cross 摘要：几何精确且语义表达丰富的地图表示已被证明对促进鲁棒且安全的移动机器人导航和任务规划具有不可或缺的价值。然而，在实时进行大规模未知环境的开放词汇语义理解仍然是一个开放的问题。在本文中，我们提出了FindAnything——一种将视觉-语言信息纳入密集体积子地图的开放世界映射和探索框架。通过使用视觉-语言特征，FindAnything填补了纯几何和开放词汇语义信息之间的差距，以实现更高层次的理解，同时允许在没有任何外部地面真实位姿信息辅助的情况下探索任何环境。我们将环境表示为一系列体积占用子地图的序列，从而形成一种在位姿更新时能够适应位姿调整的鲁棒且准确的地图表示，当底层SLAM系统纠正其漂移时，可以在子地图之间保持局部一致性表示。像素级别的视觉-语言特征从由eSAM生成的高效分割中聚合而来，这些特征随后整合到以物体为中心的体积子地图中，提供了一个从开放词汇查询映射到3D几何的表示，该表示在内存使用方面也可扩展。FindAnything的开放词汇地图表示在Replica数据集上的封闭集评估中达到了最先进的语义准确性。这种程度的场景理解使机器人能够基于通过自然语言查询选定的对象或感兴趣区域来进行环境探索。我们的系统是第一个在资源受限设备上部署的系统，例如MAVs，利用视觉-语言信息来进行实际的机器人任务。