摘要
arXiv:2502.08769v1 Announce Type: 交叉
摘要:掩码图像建模(MIM)提供了一种有潜力的方法来进行自我监督表示学习,然而现有的MIM模型仍然落后于当前最佳水平。在本文中,我们系统地分析了目标表示、损失函数和架构,引入了一种新型纯MIM框架——CAPI,该框架依赖于对潜在聚类的预测。我们的方法利用了基于聚类的损失函数,该损失函数易于训练且表现出优越的扩展性。我们的ViT-L主干和CAPI在ImageNet上实现了83.8%的准确率,在ADE20K上实现了32.1%的mIoU,仅使用简单的线性探针,显著优于之前的MIM方法,并接近当前最佳水平DINOv2的表现。我们发布了所有代码和模型。