摘要
arXiv:2503.00042v2 通知类型: 更新交叉
摘要:视频对象分割(VOS)是视频感知和理解发展中的一项关键任务。Meta AI发布的Segment-Anything Model 2(SAM 2)是当前端到端VOS的最佳架构。SAM 2在干净的视频数据和增强数据上表现都非常出色,而完整的智能视频感知要求理解该架构是如何达到如此高质量结果的。为更好地理解SAM 2架构中每一步如何实现高质量视频分割,通过该架构传递一系列复杂的视频变换,并测量每一步过程的影响。观察到每一阶段都使复杂变换噪声的过滤变得更加有效,从而强调了目标对象。贡献包括创建复杂变换视频数据集,分析SAM 2架构的每一步如何解释这些变换,以及在每一步通过可视化分割对象。通过更好地理解每一种模型结构对整体视频理解的影响,VOS开发可以努力提高在复杂杂乱场景和遮挡情况下进行目标定位和分割的实际应用性和性能跟踪。