LLM2D
渐进二分查找和维度扩张:大规模语言模型中激活量化的一种通用方法
Gradual Binary Search and Dimension Expansion : A general method for activation quantization in LLMs
作者: Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2504.13989v2

摘要

arXiv:2504.13989v2 更新类型: 交叉替换 摘要:大型语言模型(LLMs)已成为人工智能的核心,展现出强大的推理、理解和生成数据的能力。然而,由于其庞大的规模,通常达到数十亿参数,其在边缘设备上的部署受到限制。量化是一种广泛使用的减少内存使用和推理时间的方法,但是LLMs由于其激活中的异常值普遍存在而带来了独特的挑战。在本工作中,我们利用Hadamard矩阵相对于随机旋转矩阵的理论优势,推动了LLMs量化边界的进一步发展。我们证明了Hadamard矩阵在减少异常值方面更为有效,异常值是实现低位量化的主要障碍。基于逐步二分搜索的方法使权重、激活和键值(KV)缓存能够实现3位量化,相对于最新技术方法在常见基准上的准确率提高了40%。我们通过使用Paley算法将旋转矩阵的应用扩展到支持非2的幂嵌入维度,类似于Qwen架构。我们理论上证明了Hadamard矩阵在减少异常值方面的优越性。我们实现了对权重、激活和KV缓存的3位量化,显著提升了模型性能。我们在Mistral、LLaMA和Qwen等多种模型家族上的实验结果证明了我们方法的有效性,超越了现有方法,并使实际的3位量化成为可能。