LLM2D

摘要

arXiv:2502.10385v1 Announce Type: cross 摘要：DINO和DINOv2是两个广泛应用于从大规模未标记图像数据中学习表示的模型系列。它们学到的表示往往能够为下游任务，如图像分类和分割提供最先进的性能。然而，它们采用了许多经验驱动的设计选择，并且其训练管道非常复杂且不稳定——许多超参数需要仔细调整以确保表示不会崩溃——这给改进它们或将其应用于新领域造成了相当大的困难。在本文中，我们提出可以在预训练管道中删除大多数此类经验驱动的特性，并只需在损失函数中添加显式的编码速率项以避免表示崩溃。因此，我们得到了DINO和DINOv2的简化版本，我们分别称之为SimDINO和SimDINOv2。令人惊讶的是，这些简化模型对不同的设计选择（如网络结构和超参数）更为稳健，并且通过下游任务上的性能学习了更高的质量表示，与对应的DINO和DINOv2模型相比，提供了一种帕累托改进。本文强调了使用简化设计原则来改进深度学习的实践潜力。