LLM2D
Liger:将大型语言模型线性化为门控循环结构
Liger: Linearizing Large Language Models to Gated Recurrent Structures
作者: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2503.01496v2

摘要

arXiv:2503.01496v2 宣布类型: replace-cross 摘要:具有线性递归建模的Transformer在训练时提供线性时间复杂度,并在推理时提供常数内存。尽管它们在效率和性能方面已经得到了证明,但从头开始预训练这样的非标准架构仍然是昂贵且具有风险的。将大语言模型(LLMs)线性化可以将预训练的标准模型转换为线性递归结构,从而实现更高效的部署。然而,当前的线性化方法通常会引入额外的特征映射模块,这需要大量的微调,并且忽略了最先进的线性递归模型中使用的门控机制。为了解决这些问题,本文提出了一种名为Liger的方法,其含义是线性化LLMs到门控递归结构。Liger是一种新颖的方法,用于将预训练的LLMs转换为门控线性递归模型,而不增加额外的参数。它重新利用预训练的关键矩阵权重来构建各种门控机制,从而促进各种门控递归结构的形成,同时避免从头开始训练额外组件的需求。通过使用低秩适应(LoRA)进行轻量级微调,Liger恢复了线性化门控递归模型的性能,使其与原始LLMs的性能相当。此外,我们引入了Liger Attention,这是一种层内混合注意力机制,在线性化过程中仅使用0.02%的预训练标记即可显著恢复93%的基于Transformer的LLMs的表现,这在多个基准测试中获得了竞争力的结果,验证范围从1B到8B个参数的模型。代码可在 https://github.com/OpenSparseLLMs/Linearization 获取。