LLM2D

摘要

arXiv:2502.03460v1 加速类型: 交叉摘要: 小型语言模型（SLMs）由于其在边缘设备中广泛应用而引起了学术界和工业界的广泛关注。为了获得性能强大的SLMs，传统的做法要么从头开始预训练模型，这导致了巨大的计算成本，要么压缩或修剪现有的大型语言模型（LLMs），这会导致性能下降，并且在与预训练相比时存在不足。在本文中，我们研究了同时包含结构化修剪和模型训练的加速方法家族。我们发现：1）逐层自适应修剪（Adapt-Pruner）在LLMs中非常有效，并且在现有修剪技术上带来了显著的改进；2）配备进一步训练的自适应修剪可以生成与从头开始预训练相当的模型；3）逐步修剪通过交替进行修剪和训练，并且一次仅移除一小部分神经元（约5%）带来了非显而易见的性能提升。LLaMA-3.1-8B上的实验结果表明，与传统的修剪方法（如LLM-Pruner、FLAP和SliceGPT）相比，Adapt-Pruner在常识基准上的平均准确率提高了1%-7%。此外，Adapt-Pruner通过从较大的模型中进行修剪，将MobileLLM-125M在MMLU基准上的性能恢复到与600M相当的水平，仅使用了其更大数据量的1/200的token，并发现了一个新的1B模型，在多个基准上超过了LLaMA-3.2-1B。