LLM2D

摘要

大型语言模型 (LLMs) 在现代自然语言处理和人工智能领域至关重要。然而，它们在管理庞大的内存需求方面面临挑战。尽管量化感知训练 (QAT) 通过低比特表示来减少内存消耗，同时最大程度地减少精度损失，从而提供了一种解决方案，但由于其大量的训练资源，它在实际应用中不可行。为了解决这个问题，我们提出了高效量化感知训练 (EfficientQAT)，这是一种更可行的 QAT 算法。EfficientQAT 包含两个连续的阶段：所有参数的块级训练 (Block-AP) 和量化参数的端到端训练 (E2E-QP)。据我们所知，Block-AP 是第一个能够以块级方式直接训练所有参数的方法，通过在优化过程中增强解空间，从而减少了低比特场景下的精度损失。然后，E2E-QP 只对量化参数（步长）进行端到端训练，通过考虑所有子模块之间的相互作用，进一步提高了量化模型的性能。大量的实验表明，EfficientQAT 在各种模型（包括基础 LLMs、指令微调 LLMs 和多模态 LLMs）中，在 7B 到 70B 参数的范围内，以不同的量化比特数，优于之前的量化方法。例如，EfficientQAT 在单个 A100-80GB GPU 上训练一个 2 比特的 Llama-2-70B 模型，仅需 41 个小时，与全精度模型相比，精度下降不到 3 个点（69.48 对 72.41）。代码可在 https://github.com/OpenGVLab/EfficientQAT 获取。