LLM2D
面向多模态和高光谱地理空间数据的可扩展基础模型
Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data
作者: Haozhe Si, Yuxuan Wan, Minh Do, Deepak Vasisht, Han Zhao, Hendrik F. Hamann
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.12843v3

摘要

arXiv:2503.12843v3 宣布类型: 替换交叉 摘要:基于地理空间的栅格数据,例如由基于卫星的成像系统在不同时间和光谱带收集的数据,具有广泛高影响应用的巨大潜力。这种潜力源于多个通道和传感模态的时空上下文化丰富的信息。最近的研究已经将现有的自监督学习方法应用于此类地理空间数据。然而,这些方法在可扩展的模型架构方面存在不足,当面对越来越多的通道和模态时导致灵活性差和计算效率低下。为了解决这些问题,我们引入了 LESS 有效的空间-光谱视觉变换器,并提出了三个关键创新:i) LESS 注意力块,通过 Kronecker 积近似高维的空间-光谱注意力,该积包括低维空间注意力和光谱注意力成分;ii) 连续的位置-通道嵌入层,保留每个空间-光谱块的连续性和物理特性;以及 iii) 感知领域掩码,在约束注意力仅邻近块时利用局部空间依赖性。为了评估所提出的创新,我们构建了 GFM-Bench,作为此类地理空间栅格数据的综合基准。我们使用集成了位置和通道掩码策略的超光谱掩蔽自编码框架预训练了 LESS ViT。实验结果表明,我们的方法在计算效率更高的情况下与最先进的多模态地理空间基础模型具有竞争力,并且在跨卫星泛化任务中表现更优。我们框架的灵活性和可扩展性使其成为未来涉及广泛模态和渠道的地理空间数据分析任务的一个有前途的方向。