LLM2D

摘要

arXiv:2505.01731v2 约束类型: replace-cross 摘要：剪枝大规模语言模型（LLMs）是一种有望减少模型大小和计算复杂性，同时保持性能的方法。传统的逐层剪枝方法通常采用所有层统一的稀疏性方法，这会导致由于模型中各个Transformer层的重要性差异未被考虑而在整体性能上表现不佳。为了解决这一问题，我们为LLMs提出了基于Shapley值的非均匀剪枝（SV-NUP）方法。这种方法量化了每个Transformer层对整体模型性能的贡献，使得能够为不同的层分配定制的剪枝预算以保留关键参数。为了进一步提高效率，我们设计了基于滑动窗口的Shapley值近似方法。与精确的Shapley值计算方法相比，这种方法显著减少了计算开销。在包括LLaMA-v1、LLaMA-v2和OPT的各种LLMs上的广泛实验表明了所提出方法的有效性。结果表明，非均匀剪枝显著提高了剪枝模型的性能。值得注意的是，与SparseGPT在70%稀疏性下的表现相比，SV-NUP在LLaMA-7B上实现了18.01%的困惑度（PPL）减少，在LLaMA-13B上实现了19.55%的困惑度减少。