LLM2D

摘要

arXiv:2502.14008v1 Announce Type: cross 摘要：大型语言模型（LLMs）在各种语言任务中的出色表现引起了广泛关注。然而，这些模型的日益增长的规模为部署和推理带来了越来越大的挑战。结构化剪枝，作为一种有效的模型压缩技术，因其能够提高推理效率而受到越来越多的关注。不过，大多数基于优化的结构化剪枝方法在提高灵活性以保持性能的同时，牺牲了各层之间的均匀结构。这种异构结构阻碍了现成的推理加速技术的有效利用，并阻碍了高效的配置以继续训练。为了解决这一问题，我们提出了一种基于最小最大优化的新型掩码学习范式，通过在稀疏正则化下优化掩码来获得均匀剪枝结构。大量实验结果表明，我们的方法能够在保持高性能的同时确保剪枝模型结构的均匀性，从而优于现有的SOTA方法。