LLM2D
超谱MAE:使用傅里叶编码双分支遮罩自编码器的超光谱图像分类模型
HyperspectralMAE: The Hyperspectral Imagery Classification Model using Fourier-Encoded Dual-Branch Masked Autoencoder
作者: Wooyoung Jeong, Hyun Jae Park, Seonghun Jeong, Jong Wook Jang, Tae Hoon Lim, Dae Seoung Kim
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05710v1

摘要

arXiv:2505.05710v1 属性: cross 摘要: 超光谱图像提供了丰富的光谱细节,但由于其在空间和光谱域中的高维度,提出了独特的挑战。我们提出了基于Transformer的基础模型HyperspectralMAE,它采用了一种双重掩码策略:在预训练过程中,我们随机遮挡50%的空间补丁和50%的光谱带宽。这迫使模型学习能够重建两个维度缺失信息的表示。为了编码光谱顺序,我们引入了基于波长的可学习谐波傅里叶位置嵌入。重建目标结合了均方误差(MSE)和光谱角匹配(SAM),以平衡像素级别的准确性和光谱形状的保真度。 最终模型包含大约 \(1.8 \times 10^{8}\) 个参数,并生成768维的嵌入,这使得它具备足够的迁移学习能力。我们在两个大型超光谱数据集中预训练了HyperspectralMAE——NASA EO-1 Hyperion(大约1600个场景,大约\(3 \times 10^{11}\)像素光谱)和DLR EnMAP Level-0(大约1300个场景,大约\(3 \times 10^{11}\)像素光谱),并在印度针叶林基准上对其进行了微调,用于土地覆盖分类。HyperspectralMAE在印度针叶林上达到了最先进的迁移学习精度,证实了双重掩码的预训练能够产生稳健的光谱-空间表示。这些结果表明,双重掩码和波长感知嵌入可以促进超光谱图像重建及其后续分析。