摘要
arXiv:2502.03984v1 Announce Type: cross
摘要:由于其巨大的规模,像BERT这样的大规模预训练语言模型在推理中速度缓慢且内存占用高。最近压缩BERT的方法依赖于迭代修剪和知识蒸馏,然而,这些方法通常过于复杂且计算成本高昂。本文提出了一种针对BERT的新型半结构化一次性修剪方法,称为“Permutation and Grouping for BERT”(PGB),该方法在保持准确性的条件下实现了高压缩效率和稀疏性。为此,PGB通过排列识别单个权重的重要组,并在多头注意力层和前向传播层中修剪所有其他权重。此外,如果特定层中未形成重要组,PGB会丢弃整个层以生成更紧凑的模型。我们在BERT_BASE上的实验结果表明,PGB在计算成本和准确性的保留方面优于最先进的结构化修剪方法。