LLM2D
基于视觉Transformer的配对视觉场景识别:位置感知预训练和对比配对分类
Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers
作者: Stephen Hausler, Peyman Moghadam
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06614v1

摘要

在这项工作中,我们提出了一种新颖的视觉位置识别(VPR)联合训练方法,该方法同时学习全局描述符和用于重新排序的配对分类器。配对分类器可以预测给定的一对图像是否来自同一个地方。该网络仅包含用于编码器和配对分类器的 Vision Transformer 组件,这两个组件都使用各自的类别标记进行训练。在现有的 VPR 方法中,网络通常使用来自通用图像数据集(如 ImageNet)的预训练权重进行初始化。在这项工作中,我们提出了一种替代的预训练策略,使用 Siamese Masked Image Modelling 作为预训练任务。我们提出了一种从大型 VPR 数据集集合中进行 Place-aware 图像采样程序,以预训练我们的模型,从而学习专门针对 VPR 调整的视觉特征。通过在训练的第二阶段重新使用 Mask Image Modelling 编码器和解码器权重,Pair-VPR 可以使用 ViT-B 编码器在五个基准数据集上实现最先进的 VPR 性能,并使用更大的编码器进一步提高定位召回率。Pair-VPR 网站地址:https://csiro-robotics.github.io/Pair-VPR.