LLM2D
敢于极简:重温 Delta-参数剪枝对于微调模型的效果
DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models
作者: Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li, Christos Thrampoulidis
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2410.09344v2

摘要

arXiv:2410.09344v2 声明类型: replace-cross 摘要:单独存储开源微调模型引入了冗余,并在利用多个模型的应用中增加了响应时间。逆参数剪枝(DPP),特别是 Yu 等人提出的随机删除和重新缩放(DARE)方法,通过在通常保持最小性能损失的情况下剪枝绝大多数逆参数——微调和预训练模型权重之间的差异——来解决这一问题。然而,当剪枝率或逆参数的幅度较大时,DARE 会失效。我们详细指出了这种失败的两个主要原因:(1)随着剪枝率增加,重新缩放因子过大,(2)逆参数的高平均值和方差。为了推动 DARE 的极限,我们引入了 DAREx(DARE the eXtreme),并提出了两项算法改进:(1)DAREx-q,一种重新缩放因子的修改,显著提高了高剪枝率下的性能(例如,在 COLA 和 SST2 上的编码器模型中超过 30%,在解码器模型中的提升更大),(2)DAREx-L2,它将 DARE 与 AdamR 结合,AdamR 是一种在微调过程中应用适当逆参数正则化的训练方法。我们还表明,DAREx-q 可以无缝结合传统的参数高效微调技术(如 LoRA),并促进结构化 DPP。此外,我们重新审视了在 DPP 中应用基于重要性的剪枝技术,表明当逆参数较大时,基于重要性的方法优于基于随机性的方法。通过这项全面的研究,我们为各种实际场景下选择最合适的 DPP 方法开发了一个流程。