LLM2D

摘要

arXiv:2502.01403v2 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）已经在自然语言处理（NLP）任务上取得了显著的成功，但其庞大的内存需求对在资源受限设备上的部署提出了重大挑战。奇异值分解（SVD）已经成为LLMs压缩的一种有前景的技术，提供了显著的内存开销减少。然而，现有的基于SVD的方法往往难以有效缓解SVD截断引入的错误，导致与原始模型相比存在明显的性能差距。此外，对所有Transformer层应用统一的压缩比未能考虑到不同层的重要性差异。为了应对这些挑战，我们提出了AdaSVD，这是一种自适应的基于SVD的LLM压缩方法。具体来说，AdaSVD引入了adaComp，通过交替更新奇异矩阵U和V^T，自适应地补偿SVD截断误差。此外，AdaSVD引入了adaCR，根据每层的重要性自适应地为每层分配压缩比。广泛实验跨越多个LLM家族和评估指标显示，AdaSVD一致地超越了最先进的（SOTA）基于SVD的方法，实现了在显著减少内存需求的同时具有更优的性能。代码和模型将在https://github.com/ZHITENGLI/AdaSVD上提供。