LLM2D

摘要

arXiv:2409.14019v1 公告类型: 交叉摘要: 从单目图像中精确重建密集且语义注释的3D网格仍然是一个具有挑战性的任务，这是由于缺乏几何指导和不完美的依赖于视图的2D先验。尽管我们在隐式神经场景表示方面见证了最近的进展，这些进展使得仅从多视图图像中实现精确的2D渲染成为可能，但很少有工作单独利用单目先验来解决3D场景理解问题。在本文中，我们提出了MOSE，一种神经场语义重建方法，将推断的图像级噪声先验提升到3D空间，从而在3D和2D空间中生成精确的语义和几何结构。我们方法的关键动机是利用通用的类无关分割掩码作为指导，以促进训练期间渲染语义的局部一致性。借助语义信息，我们进一步对无纹理区域应用平滑正则化，以提高几何质量，从而实现几何和语义的相互增益。在ScanNet数据集上的实验表明，我们的MOSE在3D语义分割、2D语义分割和3D表面重建任务的所有指标上均优于相关基线。