LLM2D
通过动态数据集策展进行高效的自我监督学习以应用于地球观测
Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation
作者: Thomas Kerdreux, Alexandre Tuel, Quentin Febvre, Alexis Mouche, Bertrand Chapron
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.06962v2

摘要

arXiv:2504.06962v2 宣告类型: replace-cross 摘要: 自监督学习(SSL)已实现地球观测(EO)领域的视觉基础模型的发展,展示了其在多种遥感任务中的强大迁移能力。尽管先前的工作主要集中在网络架构和训练策略上,但数据集策展,特别是预训练数据集的平衡和多样化,依然未被充分探索。在EO领域,由于卫星图像中常见的冗余性和重尾分布,这一挑战被放大,可能导致偏见的表示和低效的训练。 在这项工作中,我们提出了一种动态数据集修剪策略,旨在通过最大化数据集多样性和平衡来改进SSL预训练。我们的方法迭代优化训练集,而无需预先存在的特征提取器,使其适用于受限或不可用的策展数据集的领域。我们在Sentinel-1 波模式(WV)合成孔径雷达(SAR)档案上展示了我们的方法,这是一个以海洋观测为主的具有挑战性的数据集。我们从头开始使用整个Sentinel-1 WV档案训练模型,跨度为10年。在三个下游任务中,我们的结果显示动态修剪提高了计算效率和表示质量,从而增强了迁移能力。 我们还在github.com/galeio-research/OceanSAR-models/上发布了OceanSAR-1的权重,这是OceanSAR系列的第一个模型,该系列使用SAR图像进行海洋观测和分析的基础模型。