LLM2D

摘要

预训练的 Transformer 模型天生具有稀疏激活的特性，即每个词元仅激活一小部分神经元。尽管稀疏激活已通过训练后方法得到探索，但其在预训练中的潜力尚未开发。在这项工作中，我们首先研究了激活特性在预训练过程中的变化情况。我们的研究表明，Transformer 模型在预训练过程的大部分时间里都表现出稀疏激活，而激活相关性随着训练的进行不断演变。利用这一观察结果，我们提出了可切换稀疏-稠密学习 (SSD)。SSD 在预训练过程中自适应地在基于混合专家 (MoE) 的稀疏训练和传统的稠密训练之间切换，利用稀疏训练的效率，并避免稀疏训练的静态激活相关性。与稠密训练相比，SSD 在相同模型规模下实现了相当的性能，并降低了预训练成本。此外，使用 SSD 训练的模型可以直接用作 MoE 模型进行稀疏推理，并与稠密模型实现相同的性能，推理速度提高高达 2 倍。代码可在 https://github.com/thunlp/moefication 获取。