摘要
arXiv:2502.01403v2 宣告类型: cross
摘要: 大型语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著的成功,但它们巨大的内存需求对在资源受限设备上的部署构成了重大挑战。奇异值分解(SVD)作为一种为LLMs压缩的有前景的技术,能够显著减少内存开销。然而,现有的基于SVD的方法经常难以有效缓解由SVD截断引入的错误,导致与原始模型相比的性能差距显著。此外,对所有变换器层应用统一的压缩比忽视了不同层的重要性差异。为了应对这些挑战,我们提出了一种自适应SVD(AdaSVD)的大型语言模型压缩方法。具体来说,AdaSVD引入了adaComp,通过交替更新奇异矩阵U和V^T来自适应补偿SVD截断错误。此外,AdaSVD引入了adaCR,根据每层的重要性差异自适应地分配特定的压缩比。在多个LLM家族和评估指标上的广泛实验表明,AdaSVD始终优于最先进的(SOTA)基于SVD的方法,实现了显著减少内存需求下的优越性能。代码和模型将在 https://github.com/ZHITENGLI/AdaSVD 上提供。