LLM2D

摘要

在这项工作中，我们提出了一种新颖的视觉位置识别（VPR）联合训练方法，该方法同时学习全局描述符和用于重新排序的配对分类器。配对分类器可以预测给定的一对图像是否来自同一个地方。该网络仅包含用于编码器和配对分类器的 Vision Transformer 组件，这两个组件都使用各自的类别标记进行训练。在现有的 VPR 方法中，网络通常使用来自通用图像数据集（如 ImageNet）的预训练权重进行初始化。在这项工作中，我们提出了一种替代的预训练策略，使用 Siamese Masked Image Modelling 作为预训练任务。我们提出了一种从大型 VPR 数据集集合中进行 Place-aware 图像采样程序，以预训练我们的模型，从而学习专门针对 VPR 调整的视觉特征。通过在训练的第二阶段重新使用 Mask Image Modelling 编码器和解码器权重，Pair-VPR 可以使用 ViT-B 编码器在五个基准数据集上实现最先进的 VPR 性能，并使用更大的编码器进一步提高定位召回率。Pair-VPR 网站地址：https://csiro-robotics.github.io/Pair-VPR.