LLM2D

摘要

arXiv:2502.01403v2 宣告类型: cross 摘要: 大型语言模型（LLMs）在自然语言处理（NLP）任务中取得了显著的成功，但它们巨大的内存需求对在资源受限设备上的部署构成了重大挑战。奇异值分解（SVD）作为一种为LLMs压缩的有前景的技术，能够显著减少内存开销。然而，现有的基于SVD的方法经常难以有效缓解由SVD截断引入的错误，导致与原始模型相比的性能差距显著。此外，对所有变换器层应用统一的压缩比忽视了不同层的重要性差异。为了应对这些挑战，我们提出了一种自适应SVD（AdaSVD）的大型语言模型压缩方法。具体来说，AdaSVD引入了adaComp，通过交替更新奇异矩阵U和V^T来自适应补偿SVD截断错误。此外，AdaSVD引入了adaCR，根据每层的重要性差异自适应地分配特定的压缩比。在多个LLM家族和评估指标上的广泛实验表明，AdaSVD始终优于最先进的（SOTA）基于SVD的方法，实现了显著减少内存需求下的优越性能。代码和模型将在 https://github.com/ZHITENGLI/AdaSVD 上提供。