LLM2D
基于高效夏普利值的大型语言模型非均匀剪枝
Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models
作者: Chuan Sun, Han Yu, Lizhen Cui, Xiaoxiao Li
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.01731v2

摘要

arXiv:2505.01731v2 约束类型: replace-cross 摘要:剪枝大规模语言模型(LLMs)是一种有望减少模型大小和计算复杂性,同时保持性能的方法。传统的逐层剪枝方法通常采用所有层统一的稀疏性方法,这会导致由于模型中各个Transformer层的重要性差异未被考虑而在整体性能上表现不佳。为了解决这一问题,我们为LLMs提出了基于Shapley值的非均匀剪枝(SV-NUP)方法。这种方法量化了每个Transformer层对整体模型性能的贡献,使得能够为不同的层分配定制的剪枝预算以保留关键参数。为了进一步提高效率,我们设计了基于滑动窗口的Shapley值近似方法。与精确的Shapley值计算方法相比,这种方法显著减少了计算开销。在包括LLaMA-v1、LLaMA-v2和OPT的各种LLMs上的广泛实验表明了所提出方法的有效性。结果表明,非均匀剪枝显著提高了剪枝模型的性能。值得注意的是,与SparseGPT在70%稀疏性下的表现相比,SV-NUP在LLaMA-7B上实现了18.01%的困惑度(PPL)减少,在LLaMA-13B上实现了19.55%的困惑度减少。