LLM2D
聚类并预测潜在.patch,以提高掩蔽图像建模
Cluster and Predict Latent Patches for Improved Masked Image Modeling
作者: Timoth\'ee Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.08769v2

摘要

arXiv:2502.08769v2 Announce Type: replace-cross 摘要:掩码图像建模(MIM)提供了一种自监督表征学习的有希望的方法,然而现有的MIM模型仍然落后于当前最先进的模型。在本文中,我们系统地分析了目标表示、损失函数和架构,引入了CAPI——一种新的纯MIM框架,依赖于潜在聚类的预测。我们的方法利用了一种基于聚类的损失,这种损失在训练中很稳定,并且具有前景的扩展性。我们的ViT-L主干和CAPI在ImageNet上达到了83.8%的准确率,在ADE20K上达到了32.1%的mIoU,仅使用简单的线性探针,显著优于之前的MIM方法,并接近当前最先进的模型DINOv2的表现。我们释放了所有我们的代码和模型。