LLM2D

摘要

本研究探讨了 Segment Anything Model 2 (SAM2) 在具有挑战性的视频伪装目标分割 (VCOS) 任务中的应用和性能。VCOS 涉及检测在视频中与周围环境无缝融合的目标，这些目标具有相似的颜色和纹理、光线条件差等。与普通场景中的物体相比，伪装物体更难检测。SAM2 是一种视频基础模型，在各种任务中展现出潜力。但它在动态伪装场景中的有效性仍未得到充分探索。本研究对 SAM2 在 VCOS 中的能力进行了全面研究。首先，我们使用不同的模型和提示（点击、框和掩码）评估了 SAM2 在伪装视频数据集上的性能。其次，我们探索了将 SAM2 与现有的多模态大型语言模型 (MLLM) 和 VCOS 方法集成。第三，我们通过在视频伪装数据集上微调 SAM2 来专门调整 SAM2。我们全面的实验表明，SAM2 在视频中检测伪装物体方面具有出色的零样本能力。我们还表明，通过专门调整 SAM2 的参数以适应 VCOS，可以进一步提高这种能力。代码将发布在 https://github.com/zhoustan/SAM2-VCOS。