LLM2D

摘要

准确地识别重新访问的场所对于具身代理的定位和导航至关重要。这需要视觉表示能够区分不同，尽管相机视角和场景外观存在很大差异。现有的视觉场所识别管道对“整个”图像进行编码并搜索匹配项。这在匹配从不同相机视角拍摄的同一场所的两个图像时带来了一个基本挑战：“重叠部分的相似性可能被非重叠部分的差异所掩盖”。我们通过对“图像片段”进行编码和搜索而不是整个图像来解决这个问题。我们建议使用开放集图像分割将图像分解为“有意义”的实体（即，事物和东西）。这使我们能够创建一种新的图像表示，它是一组连接片段与其相邻片段的多个重叠子图的集合，称为超级片段。此外，为了将这些超级片段有效地编码为紧凑的向量表示，我们提出了一种新的特征聚合因式分解表示。我们表明，检索这些部分表示会导致比典型的基于整个图像的检索更高的识别召回率。我们的基于片段的方法，称为 SegVLAD，在各种基准数据集上的场所识别方面建立了新的技术水平，同时适用于通用和特定于任务的图像编码器。最后，我们通过评估我们方法在对象实例检索任务上的表现来证明了我们方法“重新访问任何事物”的潜力，该任务通过它们共同的目标（识别特定于场所的目标对象）将视觉场所识别和对象目标导航这两个截然不同的研究领域联系起来。源代码：https://github.com/AnyLoc/Revisit-Anything.