LLM2D

摘要

arXiv:2502.11381v1 宣告类型：交叉摘要：无人机视角地理定位（UVGL）的目标是通过检索最相似的GPS标记的卫星图像来确定无人机的确切位置。然而，现有的方法主要依赖于监督学习范式，需要标注配对数据进行训练，这导致了大量的标注成本，并阻碍了大规模部署。为克服这一限制，我们提出了Dynamic Memory-Driven and Neighborhood Information Learning（DMNIL）网络，这是一种面向无人机视角地理定位的轻量级端到端自监督框架。DMNIL框架采用基于双路径聚类的对比学习架构作为其基础，以建模视图内的结构关系，增强特征一致性和区分性。此外，我们提出了一种动态记忆驱动的分层学习模块，以逐步发掘局部和全局信息，加强多级特征关联，提高模型的鲁棒性。为了缩小无人机和卫星视图之间的领域差距，我们设计了一种信息一致的进化学习机制，系统地探索视图内隐含的相关性以及跨视图领域之间的关系，最终构建了一个统一的跨视图特征表示空间。在三个基准数据集（University-1652、SUES-200 和 DenseUAV）上的大量实验表明，DMNIL在与最先进的监督方法相比时，能够保持计算效率的同时实现具有竞争力的性能。值得注意的是，这种优越性是在不依赖配对训练数据的情况下实现的，突显了该框架在实际部署中的实用性。代码将于不久后发布。