摘要
arXiv:2504.06719v1 公布类型:交叉
摘要:自监督学习通过使在大型未标注数据集上训练的模型能够提供与带标签训练的模型表现相似的通用即插即用特征,从而改变了2D计算机视觉领域。然而,在3D场景理解中,自监督方法通常仅用作特定任务微调的初始权重步骤,限制了它们在通用特征提取中的应用价值。本文通过提出一个稳健的评估协议来解决这一问题,该协议专门设计用于评估自监督特征在3D场景理解中的质量。该协议使用分层模型的多分辨率特征采样,以创建丰富的点级表示,这些表示能够捕捉模型的语义能力,因此适用于使用线性探测和最近邻方法进行评估。此外,我们引入了第一个在仅使用即插即用特征的线性探测设置中,与监督模型表现相似的自监督模型。特别是,我们的模型在3D中进行了原生训练,采用了一种新型的自监督方法——掩蔽场景建模目标,该目标以自底向上的方式重建掩蔽片段的深入特征,并专门针对分层3D模型。我们的实验不仅证明了我们的方法在性能上与监督模型竞争,还比现有自监督方法取得了明显的改进。模型和训练代码可以在我们的Github仓库(https://github.com/phermosilla/msm)中找到。