摘要
大型语言模型(LLMs)在自然语言处理领域取得了显著进展,在各种任务中展现出卓越的性能。然而,其昂贵的内存和计算需求给实际部署带来了重大挑战。低比特量化作为一种关键方法应运而生,通过降低模型参数、激活值和梯度的比特宽度来减少内存使用和计算量。本文对针对 LLMs 的低比特量化方法进行了全面综述,涵盖了基本原理、系统实现和算法策略。首先介绍了低比特 LLMs 的基本概念和特定数据格式概述,然后回顾了在各种硬件平台上促进低比特 LLMs 的框架和系统。接着,我们对高效低比特 LLM 训练和推理的技术和工具进行了分类和分析。最后,我们讨论了低比特 LLMs 的未来趋势和潜在进展。我们从基础、系统和算法角度进行的系统性概述,可以为未来工作提供有价值的见解和指导,以通过低比特量化提高 LLMs 的效率和适用性。