LLM2D
EfficientQAT:面向大型语言模型的高效量化感知训练
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models
作者: Mengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Ping Luo
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2407.11062v2

摘要

大型语言模型 (LLMs) 在现代自然语言处理和人工智能领域至关重要。然而,它们在管理庞大的内存需求方面面临挑战。尽管量化感知训练 (QAT) 通过低比特表示来减少内存消耗,同时最大程度地减少精度损失,从而提供了一种解决方案,但由于其大量的训练资源,它在实际应用中不可行。为了解决这个问题,我们提出了高效量化感知训练 (EfficientQAT),这是一种更可行的 QAT 算法。EfficientQAT 包含两个连续的阶段:所有参数的块级训练 (Block-AP) 和量化参数的端到端训练 (E2E-QP)。据我们所知,Block-AP 是第一个能够以块级方式直接训练所有参数的方法,通过在优化过程中增强解空间,从而减少了低比特场景下的精度损失。然后,E2E-QP 只对量化参数(步长)进行端到端训练,通过考虑所有子模块之间的相互作用,进一步提高了量化模型的性能。大量的实验表明,EfficientQAT 在各种模型(包括基础 LLMs、指令微调 LLMs 和多模态 LLMs)中,在 7B 到 70B 参数的范围内,以不同的量化比特数,优于之前的量化方法。例如,EfficientQAT 在单个 A100-80GB GPU 上训练一个 2 比特的 Llama-2-70B 模型,仅需 41 个小时,与全精度模型相比,精度下降不到 3 个点(69.48 对 72.41)。代码可在 https://github.com/OpenGVLab/EfficientQAT 获取。