摘要
arXiv:2410.09615v2 类型:替换-交叉
摘要:针对大语言模型(LLMs)的常规模型压缩技术可以解决高内存消耗和慢推理问题,但通常需要耗费大量计算资源的重新训练以保持准确度。相比之下,单次压缩方法可以消除重新训练的成本,但在准确度方面往往难以匹及稠密模型。本文提出了SLIM,这是一个全新的单次压缩框架,将硬件友好型量化、稀疏性和低秩逼近整合到一个统一的过程中。首先,我们使用一种概率方法(SLIM-Quant)来制定量化过程,这使我们能够应用均匀量化。然后,我们使用现有的单次剪枝方法在量化权重上应用半结构化稀疏性。最后,为了补偿引入的聚合量化和稀疏性误差,我们使用了一种具有独特可逆性和加性特征的新颖显著函数,这使我们能够对低秩适配器的值进行数学计算。SLIM在2:4稀疏性与4位权重量化条件下,将LLaMA-2-7B模型的准确度提高了最多5.66%,相比之前的方法表现更优。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最高3.78倍和3.75倍的层间加速。我们还提出了一种可选的PEFT菜谱,在无需微调的情况下将LLaMA-2-13B模型的准确度进一步提高了最多1.66%。