LLM2D

摘要

大型语言模型（LLM）日益庞大且复杂，给其在个人电脑和移动设备上的部署带来了挑战。为了减小模型尺寸，必须采取积极的模型压缩技术，但这通常会导致显著的精度损失。为了应对这一挑战，我们提出了一种新颖的网络剪枝技术，它利用超过 0.7 的稀疏度和低于 8 位的量化。我们的方法能够在几个小时内压缩流行的 LLM，同时保持相对较小的精度损失。在实验评估中，我们的方法证明了其有效性和实际部署的潜力。通过使 LLM 在家用设备上可用，我们的工作可以推动自然语言处理应用的新时代，并带来广泛的影响。