LLM2D

摘要

arXiv:2504.13989v2 更新类型: 交叉替换摘要：大型语言模型（LLMs）已成为人工智能的核心，展现出强大的推理、理解和生成数据的能力。然而，由于其庞大的规模，通常达到数十亿参数，其在边缘设备上的部署受到限制。量化是一种广泛使用的减少内存使用和推理时间的方法，但是LLMs由于其激活中的异常值普遍存在而带来了独特的挑战。在本工作中，我们利用Hadamard矩阵相对于随机旋转矩阵的理论优势，推动了LLMs量化边界的进一步发展。我们证明了Hadamard矩阵在减少异常值方面更为有效，异常值是实现低位量化的主要障碍。基于逐步二分搜索的方法使权重、激活和键值（KV）缓存能够实现3位量化，相对于最新技术方法在常见基准上的准确率提高了40%。我们通过使用Paley算法将旋转矩阵的应用扩展到支持非2的幂嵌入维度，类似于Qwen架构。我们理论上证明了Hadamard矩阵在减少异常值方面的优越性。我们实现了对权重、激活和KV缓存的3位量化，显著提升了模型性能。我们在Mistral、LLaMA和Qwen等多种模型家族上的实验结果证明了我们方法的有效性，超越了现有方法，并使实际的3位量化成为可能。