LLM2D

摘要

我们提出了一种名为Hi-SLAM的语义三维高斯 splatting SLAM 方法，该方法采用一种新颖的分层类别表示，能够实现精确的全局三维语义建图、扩展能力以及三维世界中的显式语义标签预测。语义SLAM系统中的参数使用量随着环境复杂性的增加而显著增加，这使得场景理解变得尤为困难和代价高昂。为了解决这个问题，我们引入了一种新颖的分层表示方法，将语义信息以紧凑的形式编码到三维高斯 splatting 中，并利用大型语言模型 (LLM) 的能力。我们进一步引入了一种新颖的语义损失函数，旨在通过层内和层间优化来优化分层语义信息。此外，我们还增强了整个SLAM系统，从而提高了跟踪和建图性能。我们的Hi-SLAM在建图和跟踪精度方面均优于现有的稠密SLAM方法，同时实现了2倍的运行速度提升。此外，它在小型合成场景中渲染语义分割方面也表现出具有竞争力的性能，并且显著减少了存储和训练时间需求。渲染帧率令人印象深刻地达到了带语义信息的2000帧/秒和不带语义信息的3000帧/秒。最值得注意的是，它展示了处理包含500多个语义类别复杂真实场景的能力，突出了其宝贵的扩展能力。