LLM2D

摘要

arXiv:2502.08769v2 Announce Type: replace-cross 摘要：掩码图像建模（MIM）提供了一种自监督表征学习的有希望的方法，然而现有的MIM模型仍然落后于当前最先进的模型。在本文中，我们系统地分析了目标表示、损失函数和架构，引入了CAPI——一种新的纯MIM框架，依赖于潜在聚类的预测。我们的方法利用了一种基于聚类的损失，这种损失在训练中很稳定，并且具有前景的扩展性。我们的ViT-L主干和CAPI在ImageNet上达到了83.8%的准确率，在ADE20K上达到了32.1%的mIoU，仅使用简单的线性探针，显著优于之前的MIM方法，并接近当前最先进的模型DINOv2的表现。我们释放了所有我们的代码和模型。