LLM2D

摘要

arXiv:2502.11381v2 通知类型: replace-cross 摘要: 无人机视角地理定位（UVGL）的目标是通过检索与GPS标记的地对地卫星图像最相关联的图像来实现无人机的准确定位。然而，现有的方法严重依赖预先配对的无人机-卫星图像进行监督学习。这种依赖性不仅导致了高注释成本，还严重限制了UVGL开放场景下的可扩展性和实际部署。为了解决这些局限性，我们提出了一种端到端的自监督UVGL方法。我们的方法利用一个浅层骨干网络提取初始特征，采用聚类生成伪标签，并采用双路径对比学习架构学习有区别的视角内表示。此外，我们的方法包括两个核心模块：动态层次记忆学习模块和信息一致性演变学习模块。动态层次记忆学习模块结合短时和长时记忆，增强视角内特征的一致性和区辨性。与此同时，信息一致性演变学习模块利用以邻近驱动的动力学约束机制系统地捕获跨视角语义关联，从而改善跨视角特征对齐。为了进一步稳定和加强自监督训练过程，我们引入了一种伪标签增强策略，以提高伪监督的质量。最终，我们的方法在自监督设置下构建了一个统一的跨视角特征表示空间。在三个公开基准数据集上的广泛实验表明，所提出的方法在所有自监督方法中表现最优，并且甚至超过了几个最先进的监督方法。我们的代码可在https://github.com/ISChenawei/DMNIL获取。