LLM2D

摘要

arXiv:2407.10366v2 宣告类型: replace-cross 摘要：视觉基础模型因其大规模训练数据而闻名于泛化能力。然而，它们需要大量的训练资源，而训练数据通常不可访问，例如 CLIP 和 DINOv2，这对开发能够促进研究的衍生产品构成了巨大挑战。在本文中，我们提供了一个非常简单且通用的解决方案，名为 Proteus，在不访问原始训练数据的情况下，将基础模型精简为 ImageNet-1K 的较小等效模型。具体而言，我们去除了会导致数据集偏差的设计，从传统的知识蒸馏设置中去除，并提出了三个级别的训练目标，即 token、patch 和 feature，以最大化知识转移的有效性。通过这种方式，Proteus 以 ImageNet 级别的成本进行了训练，展现出令人惊讶的能力，促进了训练基础模型的可访问性，为更广泛的科研社区提供支持。当利用 DINOv2-g/14 作为老师时，Proteus-L/14 在 19 个基准测试中与 Oracle 方法 DINOv2-L/14（1.42 亿训练数据）表现相当，并且在其他视觉基础模型，包括 CLIP-L/14（4 亿）、OpenCLIP-L/14（4 亿/20 亿）和 SynCLR-L/14（6 亿）中，使用显著更小的训练集（1200 万张图像），表现出更优的性能。