LLM2D
HiRes-FusedMIM:一种用于建筑级遥感应用的高分辨率RGB-DSM预训练模型
HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications
作者: Guneet Mutreja, Philipp Schuegraf, Ksenia Bittner
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18540v1

摘要

arXiv:2503.18540v1 宣传类型:交叉 摘要:最近在自我监督学习方面的进展导致了基础模型的开发,这些基础模型在各种计算机视觉任务中显著提高了性能。然而,尽管这些模型具有巨大的潜力,它们往往忽略了高分辨率数字表面模型(DSMs)在理解城市环境中所发挥的关键作用,尤其是在建筑物级别分析方面,这对于数字孪生等应用至关重要。为了解决这一缺口,我们提出了一种新的预训练模型HiRes-FusedMIM,该模型专为利用高分辨率RGB和DSM数据中丰富的信息而设计。HiRes-FusedMIM采用了一种双编码器简单的遮蔽图像建模(SimMIM)架构,并结合了重构和对比目标的多目标损失函数,使它能够从多种模态中学习强大的联合表示。我们在包括WHU航空和LoveDA在内的多种下游任务中对HiRes-FusedMIM进行了全面评估,包括分类、语义分割和实例分割。我们的结果显示:1)HiRes-FusedMIM在多个建筑物相关数据集中超越了之前的最先进的地理空间方法,证明了其在捕捉和利用细粒度建筑物信息方面的有效性;2) 预训练过程中结合DSM数据的一致上佳表现比单独使用RGB数据有所提升,突显了高程信息对建筑物级别分析的价值;3) HiRes-FusedMIM的双编码器架构,在Vaihingen分割任务中比单一编码器模型表现出显著优势,表明为每个模态学习专门表示的好处。为了促进这一方向的进一步研究和应用,我们将公开发布训练好的模型权重。