LLM2D

摘要

arXiv:2502.03984v1 Announce Type: cross 摘要：由于其巨大的规模，像BERT这样的大规模预训练语言模型在推理中速度缓慢且内存占用高。最近压缩BERT的方法依赖于迭代修剪和知识蒸馏，然而，这些方法通常过于复杂且计算成本高昂。本文提出了一种针对BERT的新型半结构化一次性修剪方法，称为“Permutation and Grouping for BERT”(PGB)，该方法在保持准确性的条件下实现了高压缩效率和稀疏性。为此，PGB通过排列识别单个权重的重要组，并在多头注意力层和前向传播层中修剪所有其他权重。此外，如果特定层中未形成重要组，PGB会丢弃整个层以生成更紧凑的模型。我们在BERT_BASE上的实验结果表明，PGB在计算成本和准确性的保留方面优于最先进的结构化修剪方法。