LLM2D
通过编码率正规化简化 DINO
Simplifying DINO via Coding Rate Regularization
作者: Ziyang Wu, Jingyuan Zhang, Druv Pai, XuDong Wang, Chandan Singh, Jianwei Yang, Jianfeng Gao, Yi Ma
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10385v1

摘要

arXiv:2502.10385v1 Announce Type: cross 摘要:DINO和DINOv2是两个广泛应用于从大规模未标记图像数据中学习表示的模型系列。它们学到的表示往往能够为下游任务,如图像分类和分割提供最先进的性能。然而,它们采用了许多经验驱动的设计选择,并且其训练管道非常复杂且不稳定——许多超参数需要仔细调整以确保表示不会崩溃——这给改进它们或将其应用于新领域造成了相当大的困难。在本文中,我们提出可以在预训练管道中删除大多数此类经验驱动的特性,并只需在损失函数中添加显式的编码速率项以避免表示崩溃。因此,我们得到了DINO和DINOv2的简化版本,我们分别称之为SimDINO和SimDINOv2。令人惊讶的是,这些简化模型对不同的设计选择(如网络结构和超参数)更为稳健,并且通过下游任务上的性能学习了更高的质量表示,与对应的DINO和DINOv2模型相比,提供了一种帕累托改进。本文强调了使用简化设计原则来改进深度学习的实践潜力。