LLM2D

摘要

大型语言模型（LLMs）在自然语言处理领域取得了显著进展，在各种任务中展现出卓越的性能。然而，其昂贵的内存和计算需求给实际部署带来了重大挑战。低比特量化作为一种关键方法应运而生，通过降低模型参数、激活值和梯度的比特宽度来减少内存使用和计算量。本文对针对 LLMs 的低比特量化方法进行了全面综述，涵盖了基本原理、系统实现和算法策略。首先介绍了低比特 LLMs 的基本概念和特定数据格式概述，然后回顾了在各种硬件平台上促进低比特 LLMs 的框架和系统。接着，我们对高效低比特 LLM 训练和推理的技术和工具进行了分类和分析。最后，我们讨论了低比特 LLMs 的未来趋势和潜在进展。我们从基础、系统和算法角度进行的系统性概述，可以为未来工作提供有价值的见解和指导，以通过低比特量化提高 LLMs 的效率和适用性。