LLM2D

摘要

基于对象的映射从多视角传感器观测中构建场景中对象的3D地图，包含详细的形状和姿态。传统的基于对象映射的方法由于部分遮挡和传感器噪声，难以构建完整的形状并估计准确的姿态。它们需要密集的观测来覆盖所有对象，这在机器人轨迹中难以实现。最近的研究引入了生成形状先验，用于从稀疏视角进行基于对象的映射，但仅限于单类对象。在这项工作中，我们提出了一种通用对象级映射系统GOM，它利用3D扩散模型作为形状先验，支持多类别，并为场景中的所有对象输出用于纹理和几何的NeRFs。GOM包含一个有效的公式，用于在不微调的情况下，利用来自传感器测量的额外非线性约束来引导预训练的扩散模型。我们还开发了一种概率优化公式，用于融合多视角传感器观测和扩散先验，以进行联合3D对象姿态和形状估计。我们的GOM系统展示了从稀疏视角进行的多类别映射的优越性能，并在真实世界基准测试中取得了比最先进方法更准确的映射结果。我们将发布我们的代码：https://github.com/TRAILab/GeneralObjectMapping。