LLM2D
MaskPrune:基于掩码的层级统一结构的LLM精简方法
MaskPrune: Mask-based LLM Pruning for Layer-wise Uniform Structures
作者: Jiayu Qin, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Wei Wang
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14008v1

摘要

arXiv:2502.14008v1 Announce Type: cross 摘要:大型语言模型(LLMs)在各种语言任务中的出色表现引起了广泛关注。然而,这些模型的日益增长的规模为部署和推理带来了越来越大的挑战。结构化剪枝,作为一种有效的模型压缩技术,因其能够提高推理效率而受到越来越多的关注。不过,大多数基于优化的结构化剪枝方法在提高灵活性以保持性能的同时,牺牲了各层之间的均匀结构。这种异构结构阻碍了现成的推理加速技术的有效利用,并阻碍了高效的配置以继续训练。为了解决这一问题,我们提出了一种基于最小最大优化的新型掩码学习范式,通过在稀疏正则化下优化掩码来获得均匀剪枝结构。大量实验结果表明,我们的方法能够在保持高性能的同时确保剪枝模型结构的均匀性,从而优于现有的SOTA方法。