摘要
arXiv:2503.19730v1 宣布类型:交叉
摘要: 视频伪装目标分割(VCOS)旨在分割与环境无缝融合的伪装目标,是具有多种实际应用的基本视觉任务。随着SAM2的发布,视频分割已经取得了显著的进步。然而,SAM2分割伪装视频的能力并不理想,尤其是当使用简单的提示,如点和框时。为了解决这个问题,我们提出了伪装SAM2(CamSAM2),该方法增强了SAM2处理伪装场景的能力,而无需修改SAM2的参数。具体来说,我们引入了一个去伪装令牌,以提供针对VCOS的功能调整灵活性。为了充分利用当前帧和以前帧的精细和高分辨率特征,我们分别提出了隐式对象感知融合(IOF)模块和显式对象感知融合(EOF)模块。我们引入了对象原型生成(OPG),使用上一帧中的高质量特征来抽象和记忆包含信息细节的对象原型。进行了广泛的实验来验证我们方法的有效性。尽管CamSAM2仅对SAM2增加了几乎没有可学习的参数,但在三个VCOS数据集中,它显著优于SAM2,特别是在MoCA-Mask上使用点击提示时获得了12.2 mDice的提升,在SUN-SEG-Hard上使用掩码提示时获得了19.6 mDice的提升,以Hiera-T作为骨干。代码将在 \href{https://github.com/zhoustan/CamSAM2}{github.com/zhoustan/CamSAM2} 可用。