摘要
arXiv:2410.09344v2 声明类型: replace-cross
摘要:单独存储开源微调模型引入了冗余,并在利用多个模型的应用中增加了响应时间。逆参数剪枝(DPP),特别是 Yu 等人提出的随机删除和重新缩放(DARE)方法,通过在通常保持最小性能损失的情况下剪枝绝大多数逆参数——微调和预训练模型权重之间的差异——来解决这一问题。然而,当剪枝率或逆参数的幅度较大时,DARE 会失效。我们详细指出了这种失败的两个主要原因:(1)随着剪枝率增加,重新缩放因子过大,(2)逆参数的高平均值和方差。为了推动 DARE 的极限,我们引入了 DAREx(DARE the eXtreme),并提出了两项算法改进:(1)DAREx-q,一种重新缩放因子的修改,显著提高了高剪枝率下的性能(例如,在 COLA 和 SST2 上的编码器模型中超过 30%,在解码器模型中的提升更大),(2)DAREx-L2,它将 DARE 与 AdamR 结合,AdamR 是一种在微调过程中应用适当逆参数正则化的训练方法。我们还表明,DAREx-q 可以无缝结合传统的参数高效微调技术(如 LoRA),并促进结构化 DPP。此外,我们重新审视了在 DPP 中应用基于重要性的剪枝技术,表明当逆参数较大时,基于重要性的方法优于基于随机性的方法。通过这项全面的研究,我们为各种实际场景下选择最合适的 DPP 方法开发了一个流程。