LLM2D
SAM2 与视频伪装目标分割相遇:全面评估与适应
When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation
作者: Yuli Zhou, Guolei Sun, Yawei Li, Luca Benini, Ender Konukoglu
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18653v1

摘要

本研究探讨了 Segment Anything Model 2 (SAM2) 在具有挑战性的视频伪装目标分割 (VCOS) 任务中的应用和性能。VCOS 涉及检测在视频中与周围环境无缝融合的目标,这些目标具有相似的颜色和纹理、光线条件差等。与普通场景中的物体相比,伪装物体更难检测。SAM2 是一种视频基础模型,在各种任务中展现出潜力。但它在动态伪装场景中的有效性仍未得到充分探索。本研究对 SAM2 在 VCOS 中的能力进行了全面研究。首先,我们使用不同的模型和提示(点击、框和掩码)评估了 SAM2 在伪装视频数据集上的性能。其次,我们探索了将 SAM2 与现有的多模态大型语言模型 (MLLM) 和 VCOS 方法集成。第三,我们通过在视频伪装数据集上微调 SAM2 来专门调整 SAM2。我们全面的实验表明,SAM2 在视频中检测伪装物体方面具有出色的零样本能力。我们还表明,通过专门调整 SAM2 的参数以适应 VCOS,可以进一步提高这种能力。代码将发布在 https://github.com/zhoustan/SAM2-VCOS。