LLM2D

摘要

开放词汇多目标跟踪 (OVMOT) 代表着一种新的关键挑战，涉及在视频中检测和跟踪各种目标类别，包括已知类别（基本类别）和未知类别（新类别）。这个问题融合了开放词汇目标检测 (OVD) 和多目标跟踪 (MOT) 的复杂性。现有的 OVMOT 方法通常将 OVD 和 MOT 方法作为独立模块合并，主要从图像中心的视角来解决这个问题。在本文中，我们提出了 VOVTrack，这是一种新方法，它将与 MOT 相关的对象状态和视频中心训练相结合，从视频目标跟踪的角度来解决这一挑战。首先，我们考虑了跟踪过程中对象的跟踪相关状态，并提出了一种新的提示引导注意力机制，以更准确地定位和分类（检测）随时间变化的对象。随后，我们利用原始视频数据（无需标注）进行训练，通过制定自监督对象相似性学习技术来促进时间对象关联（跟踪）。实验结果表明，VOVTrack 优于现有方法，使其成为开放词汇跟踪任务的最新解决方案。