摘要
开放词汇多目标跟踪 (OVMOT) 代表着一种新的关键挑战,涉及在视频中检测和跟踪各种目标类别,包括已知类别(基本类别)和未知类别(新类别)。这个问题融合了开放词汇目标检测 (OVD) 和多目标跟踪 (MOT) 的复杂性。现有的 OVMOT 方法通常将 OVD 和 MOT 方法作为独立模块合并,主要从图像中心的视角来解决这个问题。在本文中,我们提出了 VOVTrack,这是一种新方法,它将与 MOT 相关的对象状态和视频中心训练相结合,从视频目标跟踪的角度来解决这一挑战。首先,我们考虑了跟踪过程中对象的跟踪相关状态,并提出了一种新的提示引导注意力机制,以更准确地定位和分类(检测)随时间变化的对象。随后,我们利用原始视频数据(无需标注)进行训练,通过制定自监督对象相似性学习技术来促进时间对象关联(跟踪)。实验结果表明,VOVTrack 优于现有方法,使其成为开放词汇跟踪任务的最新解决方案。