LLM2D

摘要

arXiv:2504.06962v1 宣告类型: cross 摘要: 自监督学习(SSL)使地球观测(EO)视觉基础模型的发展成为可能，展示了其在各种遥感任务中的强迁移性。尽管先前的工作主要集中在网络架构和训练策略上，但在平衡和多样化预训练数据集方面进行数据集策展的作用仍然未被充分探索。在EO领域，由于卫星图像中普遍存在的冗余性和长尾分布，这一挑战被放大，这可能导致偏斜的表示和低效的训练。在这项工作中，我们提出了一种动态数据集剪枝策略，旨在通过最大化数据集的多样性和平衡性来改进SSL预训练。我们的方法通过迭代细化训练集而无需预先存在的特征提取器，使其非常适合数据集策划有限或不可用的领域。我们在Sentinel-1波模式(WV)合成孔径雷达(SAR)存档上展示了我们的方法，这是一个以海洋观测为主的具有挑战性的数据集。我们从头开始训练了一个跨越10年的整个Sentinel-1 WV存档模型。在三个下游任务中，我们的结果显示动态剪枝提高了计算效率和表示质量，从而增强了迁移性。我们还在github.com/galeio-research/nereus-sar-models/上发布了Nereus-SAR-1的权重，这是Nereus系列的第一个模型，该系列是一系列用于雷达图像的海洋观测和分析的基础模型。