LLM2D
SLiM:基于低秩逼近的一键式量化和稀疏性压缩用于大语言模型权重压缩
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression
作者: Mohammad Mozaffari, Amir Yazdanbakhsh, Maryam Mehri Dehnavi
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.09615v2

摘要

arXiv:2410.09615v2 类型:替换-交叉 摘要:针对大语言模型(LLMs)的常规模型压缩技术可以解决高内存消耗和慢推理问题,但通常需要耗费大量计算资源的重新训练以保持准确度。相比之下,单次压缩方法可以消除重新训练的成本,但在准确度方面往往难以匹及稠密模型。本文提出了SLIM,这是一个全新的单次压缩框架,将硬件友好型量化、稀疏性和低秩逼近整合到一个统一的过程中。首先,我们使用一种概率方法(SLIM-Quant)来制定量化过程,这使我们能够应用均匀量化。然后,我们使用现有的单次剪枝方法在量化权重上应用半结构化稀疏性。最后,为了补偿引入的聚合量化和稀疏性误差,我们使用了一种具有独特可逆性和加性特征的新颖显著函数,这使我们能够对低秩适配器的值进行数学计算。SLIM在2:4稀疏性与4位权重量化条件下,将LLaMA-2-7B模型的准确度提高了最多5.66%,相比之前的方法表现更优。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最高3.78倍和3.75倍的层间加速。我们还提出了一种可选的PEFT菜谱,在无需微调的情况下将LLaMA-2-13B模型的准确度进一步提高了最多1.66%。