LLM2D
水下伪装目标跟踪与视觉语言SAM2相遇
Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
作者: Chunhui Zhang, Li Liu, Guanjie Huang, Zhipeng Zhang, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2409.16902v4

摘要

arXiv:2409.16902v4 宣布类型: replace-cross 摘要:在过去十年中,视觉目标跟踪取得了显著进展,很大程度上归功于大规模数据集的可用性。然而,这些数据集主要集中在露天场景上,并且几乎没有关注水下动物跟踪,尤其是伪装的海洋动物所带来的复杂挑战。为了填补这一空白,我们提出了一种名为UW-COT220的首款大规模多模态水下伪装目标跟踪数据集。基于所提出的数据集,本文首先全面评估了当前先进的视觉目标跟踪方法,包括基于SAM和SAM2的跟踪器,在具有挑战性的水下环境中,例如珊瑚礁。我们的研究结果突出显示了SAM2相比SAM的改进,证明了其处理水下伪装目标复杂性的增强能力。此外,我们基于视频基础模型SAM2提出了一个新的视觉-语言跟踪框架——VL-SAM2。实验结果表明,我们的VL-SAM2在UW-COT220数据集中达到了最先进的性能。数据集和代码可在以下链接获取:\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{这里}。