LLM2D

摘要

基础模型有潜力通过使大型计算机视觉模型能够在大规模遥感数据上进行预训练来改变遥感数据分析的格局。这些模型随后可以用少量标记的训练数据进行微调，并应用于各种应用。大多数现有的基础模型都是针对高空间分辨率、无云卫星图像或照片设计的，这限制了它们在需要频繁时间监测或广泛光谱特征的场景中的适用性。因此，仅在无云图像上训练的基础模型对于涉及大气变量或需要大气校正的应用来说效用有限。我们引入了SatVision-TOA，这是一个在14波段MODIS L1B大气顶部（TOA）辐射图像上进行预训练的新型基础模型，它满足了对处理中等和粗分辨率全天候遥感数据的预训练模型的需求。SatVision-TOA模型使用掩码图像建模（MIM）框架和SwinV2架构进行预训练，并通过自监督学习学习详细的上下文表示，而无需标签。这是一个拥有30亿个参数的模型，在1亿张图像上进行训练。据我们所知，这是仅在卫星遥感图像上训练的最大的基础模型。结果表明，SatVision-TOA在3D云检索等下游任务上的性能优于基线方法。值得注意的是，该模型的平均交并比（mIOU）达到0.46，比基线mIOU 0.22有了实质性的提高。此外，与基线相比，微调任务中假阴性结果的比率降低了50%以上。我们的工作通过学习各种大气和气溶胶条件来改进云和地表监测，从而推动了多光谱遥感预训练视觉建模的发展。