LLM2D

摘要

arXiv:2409.16902v3 宣布类型: replace-cross 摘要：在过去的十年中，得益于大规模数据集的支持，视觉对象跟踪取得了显著进展。然而，这些数据集主要集中在露天场景，对于水下动物跟踪尤其是伪装的海洋动物带来的复杂挑战则关注较少。为弥合这一差距，我们提出了一种大规模多模态水下伪装物体跟踪数据集，即UW-COT220。基于该数据集，本研究首次全面评估了当前先进的视觉对象跟踪方法，包括基于SAM和SAM2的跟踪器，在例如珊瑚礁等具有挑战性的水下环境中进行评估。我们的发现强调了SAM2相较于SAM的改进，显示了其增强的处理水下伪装物体复杂性的能力。此外，我们基于视频基础模型SAM2提出了一个新的视觉-语言跟踪框架VL-SAM2。实验结果表明，我们的VL-SAM2在UW-COT220数据集上达到了最先进的性能。数据集和代码可在以下链接获取：\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{这里}。