LLM2D
SLiM:基于低秩逼近的一次性量化和稀疏性压缩用于LLM权重压缩
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression
作者: Mohammad Mozaffari, Amir Yazdanbakhsh, Maryam Mehri Dehnavi
发布日期: 2/5/2025
arXiv ID: 2410.09615

摘要

arXiv:2410.09615v2 通知类型: 替换交叉 摘要: 用于大语言模型(LLMs)的传统模型压缩技术解决了高内存消耗和慢推理挑战,但通常需要计算昂贵的重新训练以保持准确性。相比之下,一次压缩方法消除了重新训练的成本,但在实现与稠密模型相媲美的准确性方面存在困难。本文提出了SLIM,这是一种新的一次压缩框架,将硬件友好的量化、稀疏性和低秩逼近整合到一个统一的过程中。首先,我们使用一种概率方法(SLIM-Quant)来制定量化过程,这使我们能够应用均匀量化。然后,我们使用现有的一次压缩方法,在量化权重上应用半结构化稀疏性。最后,为了弥补引入的聚合量化和稀疏性误差,我们使用了一个具有独特可逆和加性特征的新型重要性函数,使我们能够从数学上计算低秩适配器的值。SLIM在2:4稀疏性和4位权重量化下将LLaMA-2-7B模型的准确性提高了多达5.66%,优于先前的方法。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最多3.78倍和3.75倍的逐层加速。我们还提出了一个可选的PEFT配方,该配方在无需微调的情况下将LLaMA-2-13B模型的准确性进一步提高了多达1.66%。