摘要
大型语言模型(LLMs)在自然语言处理领域取得了显著进展,在各种任务中展现出卓越的性能。然而,其昂贵的内存和计算需求对其实际部署提出了重大挑战。低比特量化已成为缓解这些挑战的关键方法,通过降低模型参数、激活值和梯度的比特宽度来减少内存使用和计算需求。本文对针对 LLMs 的低比特量化方法进行了全面综述,涵盖了基本原理、系统实现和算法策略。首先介绍了低比特 LLMs 的基本概念和新的数据格式概述,然后回顾了跨各种硬件平台促进低比特 LLMs 的框架和系统。接下来,我们对高效低比特训练和推断 LLMs 的技术和工具包进行了分类和分析。最后,我们讨论了低比特 LLMs 的未来趋势和潜在进展。我们从基础、系统和算法角度进行的系统概述可以为未来的工作提供宝贵的见解和指导,以通过低比特量化来提高 LLMs 的效率和适用性。