摘要
arXiv:2503.04992v2 宣布类型: replace-cross
摘要:大型语言模型(LLMs)剪枝旨在通过最小的性能影响来移除不必要的权重以加快推理速度。然而,现有方法通常在缺乏全模型稀疏性感知微调的情况下会牺牲性能。本文提出了一种名为 Wanda++ 的新型剪枝框架,该框架通过利用解码器块级的区域梯度优于现有方法。具体而言,Wanda++ 首次通过区域梯度改进了剪枝得分,并提出了一种高效的区域优化方法来最小化剪枝引起的稠密和稀疏解码器输出之间的输出差异。值得注意的是,Wanda++ 在语言建模任务中的困惑度提高了高达 32%,并且在下游任务中表现出了良好的泛化能力。进一步的实验表明,我们提出的方法与稀疏性感知微调正交,在此情况下,Wanda++ 可以与 LoRA 微调结合使用,以实现与 Wanda 方法相似的困惑度改进。所提出的方法具有轻量级的特点,可以在单个 NVIDIA H100 GPU 上在不到 10 分钟的时间内剪枝一个 7B LLaMA 模型。