摘要
arXiv:2410.09615v2 通知类型: 替换交叉
摘要: 用于大语言模型(LLMs)的传统模型压缩技术解决了高内存消耗和慢推理挑战,但通常需要计算昂贵的重新训练以保持准确性。相比之下,一次压缩方法消除了重新训练的成本,但在实现与稠密模型相媲美的准确性方面存在困难。本文提出了SLIM,这是一种新的一次压缩框架,将硬件友好的量化、稀疏性和低秩逼近整合到一个统一的过程中。首先,我们使用一种概率方法(SLIM-Quant)来制定量化过程,这使我们能够应用均匀量化。然后,我们使用现有的一次压缩方法,在量化权重上应用半结构化稀疏性。最后,为了弥补引入的聚合量化和稀疏性误差,我们使用了一个具有独特可逆和加性特征的新型重要性函数,使我们能够从数学上计算低秩适配器的值。SLIM在2:4稀疏性和4位权重量化下将LLaMA-2-7B模型的准确性提高了多达5.66%,优于先前的方法。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最多3.78倍和3.75倍的逐层加速。我们还提出了一个可选的PEFT配方,该配方在无需微调的情况下将LLaMA-2-13B模型的准确性进一步提高了多达1.66%。