LLM2D
MOSE:利用NeRF提升的噪声先验进行单目语义重建
MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14019v1

摘要

arXiv:2409.14019v1 公告类型: 交叉 摘要: 从单目图像中精确重建密集且语义注释的3D网格仍然是一个具有挑战性的任务,这是由于缺乏几何指导和不完美的依赖于视图的2D先验。尽管我们在隐式神经场景表示方面见证了最近的进展,这些进展使得仅从多视图图像中实现精确的2D渲染成为可能,但很少有工作单独利用单目先验来解决3D场景理解问题。在本文中,我们提出了MOSE,一种神经场语义重建方法,将推断的图像级噪声先验提升到3D空间,从而在3D和2D空间中生成精确的语义和几何结构。我们方法的关键动机是利用通用的类无关分割掩码作为指导,以促进训练期间渲染语义的局部一致性。借助语义信息,我们进一步对无纹理区域应用平滑正则化,以提高几何质量,从而实现几何和语义的相互增益。在ScanNet数据集上的实验表明,我们的MOSE在3D语义分割、2D语义分割和3D表面重建任务的所有指标上均优于相关基线。