LLM2D

摘要

arXiv:2505.05710v1 属性: cross 摘要: 超光谱图像提供了丰富的光谱细节，但由于其在空间和光谱域中的高维度，提出了独特的挑战。我们提出了基于Transformer的基础模型HyperspectralMAE，它采用了一种双重掩码策略：在预训练过程中，我们随机遮挡50%的空间补丁和50%的光谱带宽。这迫使模型学习能够重建两个维度缺失信息的表示。为了编码光谱顺序，我们引入了基于波长的可学习谐波傅里叶位置嵌入。重建目标结合了均方误差(MSE)和光谱角匹配(SAM)，以平衡像素级别的准确性和光谱形状的保真度。最终模型包含大约 \(1.8 \times 10^{8}\) 个参数，并生成768维的嵌入，这使得它具备足够的迁移学习能力。我们在两个大型超光谱数据集中预训练了HyperspectralMAE——NASA EO-1 Hyperion（大约1600个场景，大约\(3 \times 10^{11}\)像素光谱）和DLR EnMAP Level-0（大约1300个场景，大约\(3 \times 10^{11}\)像素光谱），并在印度针叶林基准上对其进行了微调，用于土地覆盖分类。HyperspectralMAE在印度针叶林上达到了最先进的迁移学习精度，证实了双重掩码的预训练能够产生稳健的光谱-空间表示。这些结果表明，双重掩码和波长感知嵌入可以促进超光谱图像重建及其后续分析。