LLM2D

摘要

arXiv:2408.10189v2 宣布类型: replace-cross 摘要：Transformer架构已成为语言建模等领域的主要范式，但由于它们在自注意力上的二次时间复杂度，在许多推理设置中表现出色。最近提出的亚二次架构，如Mamba，显示出一定的前景，但其预训练使用的计算资源远少于最强的Transformer模型。在本工作中，我们提出了一种方法，能够将预训练的Transformer架构蒸馏为替代架构，如状态空间模型（SSMs）。我们方法的关键思想是，我们可以将Transformer和SSMs视作在令牌序列上应用不同形式的混合矩阵。因此，我们可以逐步将Transformer架构蒸馏为SSMs的不同粒度：首先匹配混合矩阵本身，然后是每个块中的隐藏单元，最后是端到端的预测。我们的方法称为MOHAWK，能够使用仅30亿个令牌蒸馏基于Phi-1.5架构的Mamba-2变体（Phi-Mamba），以及使用50亿个令牌的混合版本（Hybrid Phi-Mamba）。尽管仅使用了通常用于从头训练模型的训练数据不到1%的数据，Phi-Mamba的表现仍然远远优于所有之前的开源非Transformer模型。MOHAWK允许像SSMs这样的模型利用在训练基于Transformer的架构中投资的计算资源，突显出一种新的构建此类模型的途径。