LLM2D

摘要

arXiv:2503.01496v2 宣布类型: replace-cross 摘要：具有线性递归建模的Transformer在训练时提供线性时间复杂度，并在推理时提供常数内存。尽管它们在效率和性能方面已经得到了证明，但从头开始预训练这样的非标准架构仍然是昂贵且具有风险的。将大语言模型（LLMs）线性化可以将预训练的标准模型转换为线性递归结构，从而实现更高效的部署。然而，当前的线性化方法通常会引入额外的特征映射模块，这需要大量的微调，并且忽略了最先进的线性递归模型中使用的门控机制。为了解决这些问题，本文提出了一种名为Liger的方法，其含义是线性化LLMs到门控递归结构。Liger是一种新颖的方法，用于将预训练的LLMs转换为门控线性递归模型，而不增加额外的参数。它重新利用预训练的关键矩阵权重来构建各种门控机制，从而促进各种门控递归结构的形成，同时避免从头开始训练额外组件的需求。通过使用低秩适应（LoRA）进行轻量级微调，Liger恢复了线性化门控递归模型的性能，使其与原始LLMs的性能相当。此外，我们引入了Liger Attention，这是一种层内混合注意力机制，在线性化过程中仅使用0.02%的预训练标记即可显著恢复93%的基于Transformer的LLMs的表现，这在多个基准测试中获得了竞争力的结果，验证范围从1B到8B个参数的模型。代码可在 https://github.com/OpenSparseLLMs/Linearization 获取。