LLM2D
基于高级自动渐进式学习的大型视觉模型的有效训练
Efficient Training of Large Vision Models via Advanced Automated Progressive Learning
作者: Changlin Li, Jiawei Zhang, Sihao Lin, Zongxin Yang, Junwei Liang, Xiaodan Liang, Xiaojun Chang
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00350v1

摘要

大型视觉模型(LVMs),例如视觉Transformer(ViTs)和扩散模型,的快速发展导致对计算资源的需求不断增长,从而造成巨大的经济和环境成本。这一日益严峻的挑战突出了开发高效的LVM训练方法的必要性。渐进式学习是一种训练策略,在训练过程中模型容量逐渐增加,它在解决这些挑战方面显示出潜力。本文提出了一种先进的自动渐进式学习(AutoProg)框架,用于高效地训练LVMs。我们首先关注LVMs的预训练,以ViTs为例,并提出了AutoProg-One,一种具有动量增长(MoGrow)和一次性增长计划搜索的AutoProg方案。除了预训练之外,我们还将我们的方法扩展到解决LVMs的迁移学习和微调。我们将AutoProg的范围扩展到涵盖更广泛的LVMs,包括扩散模型。首先,我们通过使用新颖的零样本解冻计划搜索来增强AutoProg框架,从而消除了对一次性超网络训练的需求,从而引入了AutoProg-Zero。其次,我们引入了一种新颖的独特阶段标识符(SID)方案,以弥合网络增长过程中的差距。这些创新与AutoProg的核心原则相结合,为各种LVM场景中的高效训练提供了一个全面的解决方案。大量实验表明,AutoProg将ImageNet上的ViT预训练速度提高了1.85倍,并将扩散模型的微调速度提高了2.86倍,同时保持了相当甚至更高的性能。这项工作提供了一种强大且可扩展的方法来高效地训练LVMs,并在各种视觉任务中具有潜在的应用。代码:https://github.com/changlin31/AutoProg-Zero