LLM2D

摘要

尽管存在各种视觉定位方法，例如场景坐标和姿态回归，但这些方法往往难以克服高内存消耗或繁重的优化需求。为了解决这些挑战，我们利用新颖的视图合成技术的最新进展，特别是 3D 高斯散点 (3DGS) 来增强定位。3DGS 允许使用其空间特征对 3D 几何形状和场景外观进行紧凑编码。我们的方法利用了 XFeat 的轻量级关键点检测和描述模型产生的密集描述图。我们建议将这些密集的关键点描述符蒸馏到 3DGS 中，以提高模型的空间理解能力，从而通过 2D-3D 对应关系获得更准确的相机姿态预测。在估计初始姿态后，我们使用光度扭曲损失对其进行细化。在流行的室内和室外数据集上的基准测试表明，我们的方法优于最先进的神经渲染姿态 (NRP) 方法，包括 NeRFMatch 和 PNeRFLoc。