LLM2D
渐进二分搜索与维度扩展:大规模语言模型中激活量化的通用方法
Gradual Binary Search and Dimension Expansion : A general method for activation quantization in LLMs
作者: Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13989v1

摘要

arXiv:2504.13989v1 宣告类型: cross 摘要: 大型语言模型(LLMs)已成为人工智能的关键组成部分,展示了强大的推理、理解和生成数据的能力。然而,它们在边缘设备上的部署受限于其庞大的规模,通常达到数十亿个参数。量化是一种广泛使用的方法,用于减少内存使用和推理时间,然而LLMs由于其激活值中普遍存在的异常值而呈现独特的挑战。在本文中,我们利用Hadamard矩阵在理论上优于随机旋转矩阵的优势,推动了LLMs中量化边界的拓展。我们证明Hadamard矩阵在减少异常值方面更为有效,异常值是实现低比特量化的主要障碍。基于逐步二分搜索的方法使我们能够实现权重、激活值和键值缓冲(KV)的3比特量化,在常见基准上的准确率比最先进的方法提高了40%。我们通过使用Paley算法将旋转矩阵的使用扩展到支持非2的幂嵌入维度,类似于Qwen架构。我们从理论上证明了Hadamard矩阵在减少异常值方面的优越性。我们实现了权重、激活值和KV缓存的3比特量化,显著增强了模型性能。在Mistral、LLaMA和Qwen等多种模型系列上的实验结果证明了我们方法的有效性,优于现有方法,并实现了实际的3比特量化。