LLM2D
通过ImageNet-1K访问视觉基础模型
Accessing Vision Foundation Models via ImageNet-1K
作者: Yitian Zhang, Xu Ma, Yue Bai, Huan Wang, Yun Fu
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2407.10366v2

摘要

arXiv:2407.10366v2 宣告类型: replace-cross 摘要:视觉基础模型因其大规模训练数据而闻名于泛化能力。然而,它们需要大量的训练资源,而训练数据通常不可访问,例如 CLIP 和 DINOv2,这对开发能够促进研究的衍生产品构成了巨大挑战。在本文中,我们提供了一个非常简单且通用的解决方案,名为 Proteus,在不访问原始训练数据的情况下,将基础模型精简为 ImageNet-1K 的较小等效模型。具体而言,我们去除了会导致数据集偏差的设计,从传统的知识蒸馏设置中去除,并提出了三个级别的训练目标,即 token、patch 和 feature,以最大化知识转移的有效性。通过这种方式,Proteus 以 ImageNet 级别的成本进行了训练,展现出令人惊讶的能力,促进了训练基础模型的可访问性,为更广泛的科研社区提供支持。当利用 DINOv2-g/14 作为老师时,Proteus-L/14 在 19 个基准测试中与 Oracle 方法 DINOv2-L/14(1.42 亿训练数据)表现相当,并且在其他视觉基础模型,包括 CLIP-L/14(4 亿)、OpenCLIP-L/14(4 亿/20 亿)和 SynCLR-L/14(6 亿)中,使用显著更小的训练集(1200 万张图像),表现出更优的性能。