LLM2D

摘要

arXiv:2504.18770v1 交叉公告类型：基础模型摘要：我们提出了一种名为PyViT-FUSE的基础模型，这是一种专门为处理多模态影像而设计的模型，通过注意力机制学习将任意数量的混合分辨率输入波段融合为单个表示。学习到的 patch 嵌入进一步通过具有新颖分层结构的视觉变换器堆栈进行处理。我们采用一种自监督方式在采样的全球数据集上训练该模型，利用SwAV算法的核心概念。通过可视化注意力分数，我们展示了融合机制的可解释性，并展示了该模型在下游任务中的适用性。