LLM2D

基于高级自动渐进式学习的大型视觉模型的有效训练

Efficient Training of Large Vision Models via Advanced Automated Progressive Learning

作者: Changlin Li, Jiawei Zhang, Sihao Lin, Zongxin Yang, Junwei Liang, Xiaodan Liang, Xiaojun Chang

发布日期: 10/2/2024

arXiv ID: oai:arXiv.org:2410.00350v1

摘要

大型视觉模型（LVMs），例如视觉Transformer（ViTs）和扩散模型，的快速发展导致对计算资源的需求不断增长，从而造成巨大的经济和环境成本。这一日益严峻的挑战突出了开发高效的LVM训练方法的必要性。渐进式学习是一种训练策略，在训练过程中模型容量逐渐增加，它在解决这些挑战方面显示出潜力。本文提出了一种先进的自动渐进式学习（AutoProg）框架，用于高效地训练LVMs。我们首先关注LVMs的预训练，以ViTs为例，并提出了AutoProg-One，一种具有动量增长（MoGrow）和一次性增长计划搜索的AutoProg方案。除了预训练之外，我们还将我们的方法扩展到解决LVMs的迁移学习和微调。我们将AutoProg的范围扩展到涵盖更广泛的LVMs，包括扩散模型。首先，我们通过使用新颖的零样本解冻计划搜索来增强AutoProg框架，从而消除了对一次性超网络训练的需求，从而引入了AutoProg-Zero。其次，我们引入了一种新颖的独特阶段标识符（SID）方案，以弥合网络增长过程中的差距。这些创新与AutoProg的核心原则相结合，为各种LVM场景中的高效训练提供了一个全面的解决方案。大量实验表明，AutoProg将ImageNet上的ViT预训练速度提高了1.85倍，并将扩散模型的微调速度提高了2.86倍，同时保持了相当甚至更高的性能。这项工作提供了一种强大且可扩展的方法来高效地训练LVMs，并在各种视觉任务中具有潜在的应用。代码：https://github.com/changlin31/AutoProg-Zero

查看原文下载 PDF