LLM2D

摘要

arXiv:2410.09615v2 通知类型: 替换交叉摘要: 用于大语言模型（LLMs）的传统模型压缩技术解决了高内存消耗和慢推理挑战，但通常需要计算昂贵的重新训练以保持准确性。相比之下，一次压缩方法消除了重新训练的成本，但在实现与稠密模型相媲美的准确性方面存在困难。本文提出了SLIM，这是一种新的一次压缩框架，将硬件友好的量化、稀疏性和低秩逼近整合到一个统一的过程中。首先，我们使用一种概率方法（SLIM-Quant）来制定量化过程，这使我们能够应用均匀量化。然后，我们使用现有的一次压缩方法，在量化权重上应用半结构化稀疏性。最后，为了弥补引入的聚合量化和稀疏性误差，我们使用了一个具有独特可逆和加性特征的新型重要性函数，使我们能够从数学上计算低秩适配器的值。SLIM在2:4稀疏性和4位权重量化下将LLaMA-2-7B模型的准确性提高了多达5.66%，优于先前的方法。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最多3.78倍和3.75倍的逐层加速。我们还提出了一个可选的PEFT配方，该配方在无需微调的情况下将LLaMA-2-13B模型的准确性进一步提高了多达1.66%。