摘要
arXiv:2505.08124v1 宣传类型: cross
摘要: 语言增强的场景表示在大规模机器人应用如搜索与救援、智慧城市和矿业中展现出巨大的潜力。这些场景中的许多都具有时间敏感性,需要快速进行场景编码,同时也非常数据密集,因此需要可扩展的解决方案。在计算资源有限的机器人上部署这些表示进一步增加了挑战。为了解决这个问题,我们介绍了SLAG,这是一种多GPU框架,它通过高斯点绘制增强了大型场景嵌入的速度和可扩展性。我们的方法使用SAM和CLIP将2D视觉-语言模型特征整合到3D场景中。与之前的方法不同,SLAG消除了计算每个高斯语言嵌入所需的损失函数的需要。相反,它通过标准化加权平均从3D高斯场景参数中推导嵌入,从而实现高效的并行场景编码。此外,我们引入了一个向量数据库以提高嵌入的存储和检索效率。我们的实验结果显示,与OpenGaussian相比,在16-GPU设置下,SLAG在嵌入计算中实现了18倍的加速,同时在ScanNet和LERF数据集上保持了嵌入质量。要了解更多信息,请访问我们的项目网站:https://slag-project.github.io/。