摘要
arXiv:2409.18653v2 标题替换类型: replace-cross
摘要:本研究探讨了Segment Anything Model 2 (SAM2) 在具有挑战性的视频伪装目标分割 (VCOS) 任务中的应用和性能。VCOS 是指由于色调和纹理相似、光照条件差等原因,视频中难以区分与周围环境融合的物体。与普通场景中的物体相比,伪装物体的检测难度更大。SAM2 是一种视频基础模型,在各种任务中显示出了潜力。但在动态伪装场景中的有效性仍待进一步探索。本研究对 SAM2 在 VCOS 中的能力进行了全面的研究。首先,我们使用不同的模型和提示(点击、框和掩码)评估了 SAM2 在伪装视频数据集上的性能。其次,我们探讨了 SAM2 与现有的多模态大型语言模型 (MLLMs) 和 VCOS 方法的集成。第三,我们专门对 SAM2 进行了调整,通过在视频伪装数据集上进行微调。我们全面的实验表明,SAM2 具有出色的零样本检测视频中伪装物体的能力。我们还展示了通过专门调整 SAM2 的参数,这一能力可以进一步提高。代码可在 https://github.com/zhoustan/SAM2-VCOS 获取。