LLM2D

摘要

arXiv:2503.19730v1 宣布类型：交叉摘要: 视频伪装目标分割（VCOS）旨在分割与环境无缝融合的伪装目标，是具有多种实际应用的基本视觉任务。随着SAM2的发布，视频分割已经取得了显著的进步。然而，SAM2分割伪装视频的能力并不理想，尤其是当使用简单的提示，如点和框时。为了解决这个问题，我们提出了伪装SAM2（CamSAM2），该方法增强了SAM2处理伪装场景的能力，而无需修改SAM2的参数。具体来说，我们引入了一个去伪装令牌，以提供针对VCOS的功能调整灵活性。为了充分利用当前帧和以前帧的精细和高分辨率特征，我们分别提出了隐式对象感知融合（IOF）模块和显式对象感知融合（EOF）模块。我们引入了对象原型生成（OPG），使用上一帧中的高质量特征来抽象和记忆包含信息细节的对象原型。进行了广泛的实验来验证我们方法的有效性。尽管CamSAM2仅对SAM2增加了几乎没有可学习的参数，但在三个VCOS数据集中，它显著优于SAM2，特别是在MoCA-Mask上使用点击提示时获得了12.2 mDice的提升，在SUN-SEG-Hard上使用掩码提示时获得了19.6 mDice的提升，以Hiera-T作为骨干。代码将在 \href{https://github.com/zhoustan/CamSAM2}{github.com/zhoustan/CamSAM2} 可用。