摘要
我们提出了一种名为Hi-SLAM的语义三维高斯 splatting SLAM 方法,该方法采用一种新颖的分层类别表示,能够实现精确的全局三维语义建图、扩展能力以及三维世界中的显式语义标签预测。语义SLAM系统中的参数使用量随着环境复杂性的增加而显著增加,这使得场景理解变得尤为困难和代价高昂。为了解决这个问题,我们引入了一种新颖的分层表示方法,将语义信息以紧凑的形式编码到三维高斯 splatting 中,并利用大型语言模型 (LLM) 的能力。我们进一步引入了一种新颖的语义损失函数,旨在通过层内和层间优化来优化分层语义信息。此外,我们还增强了整个SLAM系统,从而提高了跟踪和建图性能。我们的Hi-SLAM在建图和跟踪精度方面均优于现有的稠密SLAM方法,同时实现了2倍的运行速度提升。此外,它在小型合成场景中渲染语义分割方面也表现出具有竞争力的性能,并且显著减少了存储和训练时间需求。渲染帧率令人印象深刻地达到了带语义信息的2000帧/秒和不带语义信息的3000帧/秒。最值得注意的是,它展示了处理包含500多个语义类别复杂真实场景的能力,突出了其宝贵的扩展能力。