摘要
arXiv:2504.06323v1 宣告类型: cross
摘要: 广泛的计算和内存需求限制了大型语言模型(LLMs)在任何硬件上的部署。压缩方法,如剪枝,可以减小模型大小,进而减少资源需求。最先进的剪枝方法基于粗粒度的方法。它们耗时且不可避免地移除了关键的模型参数,影响剪枝后模型的质量。本文提出了投影剪枝,这是一种新颖的细粒度方法,用于剪枝LLMs。此外,提出了我们称之为组合投影剪枝的新方法,它是无结构剪枝和结构剪枝的协同组合,无结构剪枝保留了准确性,结构剪枝减少了模型大小。我们开发了Mosaic,这是一种新型系统,使用组合投影剪枝来创建和部署剪枝的LLMs。Mosaic在多个硬件平台、LLMs和数据集上使用一系列性能和质量指标进行了评估。Mosaic在生成模型方面比现有方法快7.19倍。Mosaic模型在困惑度方面比粗粒度剪枝获得的模型低84.2%,在准确性方面高31.4%。对于Mosaic模型,推理速度提高高达67%,GPU内存使用量降低高达68%。