LLM2D

摘要

arXiv:2504.10254v1 Announce Type: cross 摘要：复杂视频对象分割仍然面临小对象识别、遮挡处理和动态场景建模的重大挑战。本报告介绍了我们的解决方案，该解决方案在CVPR 2025 PVUW挑战赛MOSE赛道中排名第二。基于现有的分割框架，我们提出了一种改进的模型MassSeg，用于复杂视频对象分割，并构建了增强的数据集MOSE+，其中包括典型的遮挡、杂乱背景和小目标实例场景。在训练过程中，我们结合了帧内一致性和不一致性数据增强策略以提高鲁棒性和泛化能力。在推断过程中，我们设计了一种掩码输出缩放策略，以便更好地适应对象大小和遮挡程度的变化。结果，MassSeg在MOSE测试集上实现了J分数0.8250、F分数0.9007和J&F分数0.8628。