LLM2D

摘要

arXiv:2504.13310v1 交叉公告类型：cross 摘要：卫星搭载的合成孔径雷达（SAR）图像中的物体检测在城市监测和灾害响应等任务中具有巨大的潜力。然而，SAR数据固有的复杂性和缺乏注释数据在推进该领域中的物体检测方面提出了重大挑战。值得注意的是，由于技术相对较低的空间分辨率和固有的噪声，卫星搭载的SAR图像中小型物体的检测尤为复杂。此外，缺乏大型标注的SAR数据集阻碍了基于监督深度学习的物体检测模型的发展。在本文中，我们引入了TRANSAR，这是一种新颖的自监督端到端的视图转换器SAR物体检测模型，该模型在未标注的SAR图像数据集上进行了掩码图像预训练，该数据集覆盖了超过25,700平方公里的地表面积。与传统的物体检测公式不同，我们的方法利用辅助二元语义分割，在后调优阶段特别是分离感兴趣的物体（尤其是小型物体）与背景时发挥了作用。此外，为了解决由于物体与图像尺寸比例不协调而固有的类别不平衡问题，我们引入了一种自适应采样调度器，在训练过程中根据课程学习和模型反馈动态调整目标类分布。这种方法使我们能够在广泛的基准SAR数据集上明显优于传统的监督架构（如DeepLabv3或UNet）以及最先进的自监督学习架构（如DPT、SegFormer或UperNet）。