LLM2D

摘要

arXiv:2407.07760v2 消息类型: 交叉替换摘要：由于难以识别目标组件以及遮挡、背景杂乱、外观或环境随时间变化导致的混淆，长期视频中跟踪和分割多个具有不同或复杂部分的相似对象尤其具有挑战性。在这篇论文中，我们提出了一种鲁棒的视频对象分割框架，该框架学习空间语义特征和具有区分性的对象查询，以解决上述问题。具体来说，我们构建了一个空间语义块，包括语义嵌入组件和空间依赖性建模部分，用于关联全局语义特征和局部空间特征，提供全面的目标表示。此外，我们开发了一个掩码交叉注意力模块，在查询传播过程中专注于目标对象的最具有区分性的部分，从而减轻噪声累积，确保有效的长期查询传播。广泛实验结果表明，所提出的方法在基准数据集上的性能达到甚至超越了最新的技术水平，包括DAVIS2017测试集（**87.8%），YoutubeVOS 2019（**88.1%），MOSE验证集（**74.0%），以及LVOS测试集（**73.0%），并展示了我们模型的有效性和泛化能力。完整的源代码和训练模型可以在 \href{https://github.com/yahooo-m/S3}{https://github.com/yahooo-m/S3} 发布。