LLM2D

摘要

arXiv:2312.15230v3 公告类型: replace-cross 摘要：神经网络可以通过剪枝有效地压缩，显著减少存储和计算需求，同时保持预测性能。简单而有效的方法，如幅度剪枝，会移除不重要的参数，通常需要昂贵的重新训练程序来恢复性能。然而，随着大语言模型（LLMs）的发展，由于内存和计算限制，全面重新训练变得不可行。这项研究挑战了对所有参数进行重新训练的做法，表明更新少量高表达性参数足以在剪枝后恢复甚至提升性能。令人惊讶的是，在GPT架构中，只需重新训练0.01%-0.05%的参数，就能在各种稀疏度水平上匹配全面重新训练的性能，显著减少了计算和内存需求，使得在单个GPU上重新训练多达300亿参数的模型可以在几分钟内完成。为了在高稀疏度范围内弥合全面重新训练的差距，我们引入了两种新的LoRA变体，这些变体与标准LoRA不同，能够在不牺牲稀疏性的情况下重新合并适配器。进一步地，我们展示了这些方法可以应用于高效层间重构，显著增强了Wanda（Sun et al., 2023）和SparseGPT（Frantar & Alistarh, 2023）等无重新训练方法的性能。我们的发现提供了一个避免重新训练的有前途的替代方案。