LLM2D

摘要

arXiv:2505.01731v1 剪枝类型：交叉摘要：剪枝大型语言模型（LLMs）是一种有希望的解决方案，可以在减小模型大小和计算复杂性的同时保持性能。传统的分层剪枝方法通常采用在整个层中均匀的稀疏性方法，这导致性能不佳，因为模型中各个变压器层的重要性差异没有得到考虑。为此，我们提出了基于Shapley值的非均匀剪枝（\methodname{}）方法用于LLMs。该方法量化了每个变压器层对整体模型性能的贡献，从而能够为不同的层分配定制的剪枝预算，保留关键参数。为了进一步提高效率，我们设计了基于滑动窗口的Shapley值近似方法。与精确的SV计算方法相比，该方法显著减少了计算开销。在包括LLaMA-v1、LLaMA-v2和OPT等多种LLMs上的广泛实验表明了所提出方法的有效性。结果表明，非均匀剪枝显著提高了剪枝模型的性能。值得注意的是，与SparseGPT在70%稀疏性下的表现相比，\methodname{}分别在LLaMA-7B和LLaMA-13B上实现了 perplexity（PPL）的减少，分别为18.01%和19.55%。