LLM2D
PERP: 在大语言模型时代重思精简-重新训练范式
PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs
作者: Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2312.15230v3

摘要

arXiv:2312.15230v3 公告类型: replace-cross 摘要:神经网络可以通过剪枝有效地压缩,显著减少存储和计算需求,同时保持预测性能。简单而有效的方法,如幅度剪枝,会移除不重要的参数,通常需要昂贵的重新训练程序来恢复性能。然而,随着大语言模型(LLMs)的发展,由于内存和计算限制,全面重新训练变得不可行。这项研究挑战了对所有参数进行重新训练的做法,表明更新少量高表达性参数足以在剪枝后恢复甚至提升性能。令人惊讶的是,在GPT架构中,只需重新训练0.01%-0.05%的参数,就能在各种稀疏度水平上匹配全面重新训练的性能,显著减少了计算和内存需求,使得在单个GPU上重新训练多达300亿参数的模型可以在几分钟内完成。为了在高稀疏度范围内弥合全面重新训练的差距,我们引入了两种新的LoRA变体,这些变体与标准LoRA不同,能够在不牺牲稀疏性的情况下重新合并适配器。进一步地,我们展示了这些方法可以应用于高效层间重构,显著增强了Wanda(Sun et al., 2023)和SparseGPT(Frantar & Alistarh, 2023)等无重新训练方法的性能。我们的发现提供了一个避免重新训练的有前途的替代方案。