LLM2D

摘要

arXiv:2504.06323v1 宣告类型: cross 摘要: 广泛的计算和内存需求限制了大型语言模型（LLMs）在任何硬件上的部署。压缩方法，如剪枝，可以减小模型大小，进而减少资源需求。最先进的剪枝方法基于粗粒度的方法。它们耗时且不可避免地移除了关键的模型参数，影响剪枝后模型的质量。本文提出了投影剪枝，这是一种新颖的细粒度方法，用于剪枝LLMs。此外，提出了我们称之为组合投影剪枝的新方法，它是无结构剪枝和结构剪枝的协同组合，无结构剪枝保留了准确性，结构剪枝减少了模型大小。我们开发了Mosaic，这是一种新型系统，使用组合投影剪枝来创建和部署剪枝的LLMs。Mosaic在多个硬件平台、LLMs和数据集上使用一系列性能和质量指标进行了评估。Mosaic在生成模型方面比现有方法快7.19倍。Mosaic模型在困惑度方面比粗粒度剪枝获得的模型低84.2%，在准确性方面高31.4%。对于Mosaic模型，推理速度提高高达67%，GPU内存使用量降低高达68%。