LLM2D

摘要

arXiv:2409.16902v4 宣布类型: replace-cross 摘要：在过去十年中，视觉目标跟踪取得了显著进展，很大程度上归功于大规模数据集的可用性。然而，这些数据集主要集中在露天场景上，并且几乎没有关注水下动物跟踪，尤其是伪装的海洋动物所带来的复杂挑战。为了填补这一空白，我们提出了一种名为UW-COT220的首款大规模多模态水下伪装目标跟踪数据集。基于所提出的数据集，本文首先全面评估了当前先进的视觉目标跟踪方法，包括基于SAM和SAM2的跟踪器，在具有挑战性的水下环境中，例如珊瑚礁。我们的研究结果突出显示了SAM2相比SAM的改进，证明了其处理水下伪装目标复杂性的增强能力。此外，我们基于视频基础模型SAM2提出了一个新的视觉-语言跟踪框架——VL-SAM2。实验结果表明，我们的VL-SAM2在UW-COT220数据集中达到了最先进的性能。数据集和代码可在以下链接获取：\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{这里}。