LLM2D
超大语言模型的激进后训练压缩
Aggressive Post-Training Compression on Extremely Large Language Models
作者: Zining Zhang, Yao Chen, Bingsheng He, Zhenjie Zhang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20094v1

摘要

大型语言模型(LLM)日益庞大且复杂,给其在个人电脑和移动设备上的部署带来了挑战。为了减小模型尺寸,必须采取积极的模型压缩技术,但这通常会导致显著的精度损失。为了应对这一挑战,我们提出了一种新颖的网络剪枝技术,它利用超过 0.7 的稀疏度和低于 8 位的量化。我们的方法能够在几个小时内压缩流行的 LLM,同时保持相对较小的精度损失。在实验评估中,我们的方法证明了其有效性和实际部署的潜力。通过使 LLM 在家用设备上可用,我们的工作可以推动自然语言处理应用的新时代,并带来广泛的影响。