LLM2D

摘要

arXiv:2504.06962v2 宣告类型: replace-cross 摘要: 自监督学习(SSL)已实现地球观测(EO)领域的视觉基础模型的发展，展示了其在多种遥感任务中的强大迁移能力。尽管先前的工作主要集中在网络架构和训练策略上，但数据集策展，特别是预训练数据集的平衡和多样化，依然未被充分探索。在EO领域，由于卫星图像中常见的冗余性和重尾分布，这一挑战被放大，可能导致偏见的表示和低效的训练。在这项工作中，我们提出了一种动态数据集修剪策略，旨在通过最大化数据集多样性和平衡来改进SSL预训练。我们的方法迭代优化训练集，而无需预先存在的特征提取器，使其适用于受限或不可用的策展数据集的领域。我们在Sentinel-1 波模式(WV)合成孔径雷达(SAR)档案上展示了我们的方法，这是一个以海洋观测为主的具有挑战性的数据集。我们从头开始使用整个Sentinel-1 WV档案训练模型，跨度为10年。在三个下游任务中，我们的结果显示动态修剪提高了计算效率和表示质量，从而增强了迁移能力。我们还在github.com/galeio-research/OceanSAR-models/上发布了OceanSAR-1的权重，这是OceanSAR系列的第一个模型，该系列使用SAR图像进行海洋观测和分析的基础模型。