LLM2D
预训练中激活稀疏性的益处探索
Exploring the Benefit of Activation Sparsity in Pre-training
作者: Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03440v1

摘要

预训练的 Transformer 模型天生具有稀疏激活的特性,即每个词元仅激活一小部分神经元。尽管稀疏激活已通过训练后方法得到探索,但其在预训练中的潜力尚未开发。在这项工作中,我们首先研究了激活特性在预训练过程中的变化情况。我们的研究表明,Transformer 模型在预训练过程的大部分时间里都表现出稀疏激活,而激活相关性随着训练的进行不断演变。利用这一观察结果,我们提出了可切换稀疏-稠密学习 (SSD)。SSD 在预训练过程中自适应地在基于混合专家 (MoE) 的稀疏训练和传统的稠密训练之间切换,利用稀疏训练的效率,并避免稀疏训练的静态激活相关性。与稠密训练相比,SSD 在相同模型规模下实现了相当的性能,并降低了预训练成本。此外,使用 SSD 训练的模型可以直接用作 MoE 模型进行稀疏推理,并与稠密模型实现相同的性能,推理速度提高高达 2 倍。代码可在 https://github.com/thunlp/moefication 获取。