摘要
arXiv:2504.19432v1 Announce Type: cross
摘要:卫星影像和地图作为遥感中的两种基本数据模态,分别提供了地球表面的直接观察和人类可理解的地理抽象。卫星影像与地图之间的双向翻译任务(BSMT)在城市规划和灾害响应等方面具有显著的应用潜力。然而,这项任务存在着两个主要挑战:首先,两种模态之间缺乏精确的像素级对齐极大地复杂化了翻译过程;其次,需要同时实现高层次的地理特征抽象和高质量的视觉合成,这进一步增加了技术复杂性。为了应对这些限制,我们引入了EarthMapper,一种全新的自回归框架,用于可控的双向卫星-地图翻译。EarthMapper通过地理坐标嵌入来锚定生成过程,确保区域特定的适应性,并利用地理条件下的联合尺度自回归(GJSA)过程中的多尺度特征对齐,统一双向翻译于单一训练周期中。我们引入了一种语义融合机制(SI)以增强特征级的一致性,同时提出了一种关键点自适应引导(KPAG)机制以动态平衡推理过程中的多样性和精确度。此外,我们贡献了CNSatMap数据集,其中包括来自38个中国城市的302,132对精确对齐的卫星-地图配对,使基准测试更为稳健。在CNSatMap和纽约数据集上的广泛实验表明,EarthMapper的性能优于现有方法,在视觉真实感、语义一致性和结构保真度方面取得了显著提升。此外,EarthMapper在填图、过图以及坐标条件生成等零样本任务方面表现出色,突显了其灵活性。