LLM2D

摘要

arXiv:2410.09344v2 声明类型: replace-cross 摘要：单独存储开源微调模型引入了冗余，并在利用多个模型的应用中增加了响应时间。逆参数剪枝（DPP），特别是 Yu 等人提出的随机删除和重新缩放（DARE）方法，通过在通常保持最小性能损失的情况下剪枝绝大多数逆参数——微调和预训练模型权重之间的差异——来解决这一问题。然而，当剪枝率或逆参数的幅度较大时，DARE 会失效。我们详细指出了这种失败的两个主要原因：（1）随着剪枝率增加，重新缩放因子过大，（2）逆参数的高平均值和方差。为了推动 DARE 的极限，我们引入了 DAREx（DARE the eXtreme），并提出了两项算法改进：（1）DAREx-q，一种重新缩放因子的修改，显著提高了高剪枝率下的性能（例如，在 COLA 和 SST2 上的编码器模型中超过 30%，在解码器模型中的提升更大），（2）DAREx-L2，它将 DARE 与 AdamR 结合，AdamR 是一种在微调过程中应用适当逆参数正则化的训练方法。我们还表明，DAREx-q 可以无缝结合传统的参数高效微调技术（如 LoRA），并促进结构化 DPP。此外，我们重新审视了在 DPP 中应用基于重要性的剪枝技术，表明当逆参数较大时，基于重要性的方法优于基于随机性的方法。通过这项全面的研究，我们为各种实际场景下选择最合适的 DPP 方法开发了一个流程。