摘要
在过去的十年中,视觉目标跟踪取得了显著进展,这在很大程度上得益于大规模训练数据集的出现。然而,现有的跟踪数据集主要集中在露天场景,这极大地限制了水下环境中目标跟踪的发展。为了解决这个问题,我们迈出了一步,提出了第一个大规模水下伪装目标跟踪数据集,即 UW-COT。基于提出的数据集,本文对几种先进的视觉目标跟踪方法以及图像和视频分割的最新进展进行了实验评估。具体来说,我们比较了 Segment Anything Model (SAM) 及其更新版本 SAM 2 在具有挑战性的水下环境中的性能。我们的发现突出了 SAM 2 相对于 SAM 的改进,证明了其在处理水下伪装物体复杂性的增强能力。与当前先进的视觉目标跟踪方法相比,最新的视频分割基础模型 SAM 2 也表现出显著的优势,为开发更有效的水下场景跟踪技术提供了宝贵的见解。该数据集将在 \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking} 上公开访问。