LLM2D
从 Transformers 到 SSMs:提炼二次知识到亚二次模型
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models
作者: Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2408.10189v2

摘要

arXiv:2408.10189v2 宣布类型: replace-cross 摘要:Transformer架构已成为语言建模等领域的主要范式,但由于它们在自注意力上的二次时间复杂度,在许多推理设置中表现出色。最近提出的亚二次架构,如Mamba,显示出一定的前景,但其预训练使用的计算资源远少于最强的Transformer模型。在本工作中,我们提出了一种方法,能够将预训练的Transformer架构蒸馏为替代架构,如状态空间模型(SSMs)。我们方法的关键思想是,我们可以将Transformer和SSMs视作在令牌序列上应用不同形式的混合矩阵。因此,我们可以逐步将Transformer架构蒸馏为SSMs的不同粒度:首先匹配混合矩阵本身,然后是每个块中的隐藏单元,最后是端到端的预测。我们的方法称为MOHAWK,能够使用仅30亿个令牌蒸馏基于Phi-1.5架构的Mamba-2变体(Phi-Mamba),以及使用50亿个令牌的混合版本(Hybrid Phi-Mamba)。尽管仅使用了通常用于从头训练模型的训练数据不到1%的数据,Phi-Mamba的表现仍然远远优于所有之前的开源非Transformer模型。MOHAWK允许像SSMs这样的模型利用在训练基于Transformer的架构中投资的计算资源,突显出一种新的构建此类模型的途径。