LLM2D

摘要

arXiv:2502.08769v1 Announce Type: 交叉摘要：掩码图像建模（MIM）提供了一种有潜力的方法来进行自我监督表示学习，然而现有的MIM模型仍然落后于当前最佳水平。在本文中，我们系统地分析了目标表示、损失函数和架构，引入了一种新型纯MIM框架——CAPI，该框架依赖于对潜在聚类的预测。我们的方法利用了基于聚类的损失函数，该损失函数易于训练且表现出优越的扩展性。我们的ViT-L主干和CAPI在ImageNet上实现了83.8%的准确率，在ADE20K上实现了32.1%的mIoU，仅使用简单的线性探针，显著优于之前的MIM方法，并接近当前最佳水平DINOv2的表现。我们发布了所有代码和模型。