摘要
arXiv:2502.14008v1 Announce Type: cross
摘要:大型语言模型(LLMs)在各种语言任务中的出色表现引起了广泛关注。然而,这些模型的日益增长的规模为部署和推理带来了越来越大的挑战。结构化剪枝,作为一种有效的模型压缩技术,因其能够提高推理效率而受到越来越多的关注。不过,大多数基于优化的结构化剪枝方法在提高灵活性以保持性能的同时,牺牲了各层之间的均匀结构。这种异构结构阻碍了现成的推理加速技术的有效利用,并阻碍了高效的配置以继续训练。为了解决这一问题,我们提出了一种基于最小最大优化的新型掩码学习范式,通过在稀疏正则化下优化掩码来获得均匀剪枝结构。大量实验结果表明,我们的方法能够在保持高性能的同时确保剪枝模型结构的均匀性,从而优于现有的SOTA方法。