LLM2D

摘要

学习一个判别模型来区分目标与其周围的干扰物对于通用视觉目标跟踪至关重要。由于现有跟踪器的判别能力有限，针对干扰物的动态目标表示自适应具有挑战性。为了解决这个问题，我们提出了一种用于通用视觉目标跟踪的新型视觉提示机制 (PiVOT)。PiVOT 提出了一种带有预训练基础模型 CLIP 的提示生成网络，以自动生成和细化视觉提示，从而实现基础模型知识的跟踪迁移。虽然 CLIP 提供了广泛的类别级知识，但经过实例特定数据训练的跟踪器在识别独特目标实例方面表现出色。因此，PiVOT 首先编译一个视觉提示，突出显示潜在的目标位置。为了将 CLIP 的知识迁移到跟踪器，PiVOT 利用 CLIP 基于候选对象与潜在目标上的参考模板之间的相似性来细化视觉提示。一旦视觉提示被细化，它就可以更好地突出显示潜在的目标位置，从而减少不相关的提示信息。通过提出的提示机制，跟踪器可以根据视觉提示的指导生成改进的实例感知特征图，从而有效地减少干扰物。所提出的方法在训练期间不涉及 CLIP，从而保持相同的训练复杂度并保留预训练基础模型的泛化能力。在多个基准上的大量实验表明，PiVOT 使用提出的提示方法可以抑制干扰对象并增强跟踪器。