LLM2D
掩码近似网络:一种用于遥感变化 Captioning 的新型扩散模型方法
Mask Approximation Net: A Novel Diffusion Model Approach for Remote Sensing Change Captioning
作者: Dongwei Sun, Jing Yao, Changsheng Zhou, Xiangyong Cao, Pedram Ghamisi
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.19179v2

摘要

arXiv:2412.19179v2 宣告类型: replace-cross 摘要:遥感影像变化描述代表了遥感处理领域内的一项创新的多模态任务。这一任务不仅有助于表面条件变化的检测,还提供了这些变化的综合描述,从而提高人的解释能力和互动性。通常,现有的基于深度学习的方法主要采用三阶段框架,依次执行从双时相影像中提取特征、融合特征和定位,然后进行文本生成。然而,这种依赖往往导致对特定网络架构设计的关注过多,并且限制了特征在手头数据集上的分布,从而在应用中导致了有限的泛化能力和鲁棒性。为了解决这些限制,本文提出了一种新的遥感影像变化检测和描述方法,结合了扩散模型,旨在将建模范式的重点从传统的特征学习转向数据分布学习。该提出的方法主要包括一个简单的多尺度变化检测模块,其输出特征随后通过一个精心设计的扩散模型进行细化。此外,我们引入了一个基于频率的复杂滤波模块,在扩散过程中管理高频率噪声,以提升模型性能。我们在多个遥感变化检测和描述数据集上验证了我们提出方法的效果,展示了其在性能上优于现有技术。论文发表后,代码将在 \href{https://github.com/sundongwei}{MaskApproxNet} 上开源。