LLM2D
基于高效舍里希值的大型语言模型非均匀剪枝
Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models
作者: Chuan Sun, Han Yu, Lizhen Cui
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01731v1

摘要

arXiv:2505.01731v1 剪枝类型:交叉 摘要:剪枝大型语言模型(LLMs)是一种有希望的解决方案,可以在减小模型大小和计算复杂性的同时保持性能。传统的分层剪枝方法通常采用在整个层中均匀的稀疏性方法,这导致性能不佳,因为模型中各个变压器层的重要性差异没有得到考虑。为此,我们提出了基于Shapley值的非均匀剪枝(\methodname{})方法用于LLMs。该方法量化了每个变压器层对整体模型性能的贡献,从而能够为不同的层分配定制的剪枝预算,保留关键参数。为了进一步提高效率,我们设计了基于滑动窗口的Shapley值近似方法。与精确的SV计算方法相比,该方法显著减少了计算开销。在包括LLaMA-v1、LLaMA-v2和OPT等多种LLMs上的广泛实验表明了所提出方法的有效性。结果表明,非均匀剪枝显著提高了剪枝模型的性能。值得注意的是,与SparseGPT在70%稀疏性下的表现相比,\methodname{}分别在LLaMA-7B和LLaMA-13B上实现了 perplexity(PPL)的减少,分别为18.01%和19.55%。