LLM2D
当SAM2遇到视频伪装目标分割:一项综合评估与适应
When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation
作者: Yuli Zhou, Guolei Sun, Yawei Li, Guo-Sen Xie, Luca Benini, Ender Konukoglu
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2409.18653v2

摘要

arXiv:2409.18653v2 标题替换类型: replace-cross 摘要:本研究探讨了Segment Anything Model 2 (SAM2) 在具有挑战性的视频伪装目标分割 (VCOS) 任务中的应用和性能。VCOS 是指由于色调和纹理相似、光照条件差等原因,视频中难以区分与周围环境融合的物体。与普通场景中的物体相比,伪装物体的检测难度更大。SAM2 是一种视频基础模型,在各种任务中显示出了潜力。但在动态伪装场景中的有效性仍待进一步探索。本研究对 SAM2 在 VCOS 中的能力进行了全面的研究。首先,我们使用不同的模型和提示(点击、框和掩码)评估了 SAM2 在伪装视频数据集上的性能。其次,我们探讨了 SAM2 与现有的多模态大型语言模型 (MLLMs) 和 VCOS 方法的集成。第三,我们专门对 SAM2 进行了调整,通过在视频伪装数据集上进行微调。我们全面的实验表明,SAM2 具有出色的零样本检测视频中伪装物体的能力。我们还展示了通过专门调整 SAM2 的参数,这一能力可以进一步提高。代码可在 https://github.com/zhoustan/SAM2-VCOS 获取。