LLM2D

摘要

arXiv:2410.09615v2 类型：替换-交叉摘要：针对大语言模型（LLMs）的常规模型压缩技术可以解决高内存消耗和慢推理问题，但通常需要耗费大量计算资源的重新训练以保持准确度。相比之下，单次压缩方法可以消除重新训练的成本，但在准确度方面往往难以匹及稠密模型。本文提出了SLIM，这是一个全新的单次压缩框架，将硬件友好型量化、稀疏性和低秩逼近整合到一个统一的过程中。首先，我们使用一种概率方法（SLIM-Quant）来制定量化过程，这使我们能够应用均匀量化。然后，我们使用现有的单次剪枝方法在量化权重上应用半结构化稀疏性。最后，为了补偿引入的聚合量化和稀疏性误差，我们使用了一种具有独特可逆性和加性特征的新颖显著函数，这使我们能够对低秩适配器的值进行数学计算。SLIM在2:4稀疏性与4位权重量化条件下，将LLaMA-2-7B模型的准确度提高了最多5.66%，相比之前的方法表现更优。使用SLIM压缩的模型在Nvidia RTX3060和A100 GPU上分别实现了最高3.78倍和3.75倍的层间加速。我们还提出了一种可选的PEFT菜谱，在无需微调的情况下将LLaMA-2-13B模型的准确度进一步提高了最多1.66%。