LLM2D

摘要

arXiv:2504.13989v1 宣告类型: cross 摘要: 大型语言模型（LLMs）已成为人工智能的关键组成部分，展示了强大的推理、理解和生成数据的能力。然而，它们在边缘设备上的部署受限于其庞大的规模，通常达到数十亿个参数。量化是一种广泛使用的方法，用于减少内存使用和推理时间，然而LLMs由于其激活值中普遍存在的异常值而呈现独特的挑战。在本文中，我们利用Hadamard矩阵在理论上优于随机旋转矩阵的优势，推动了LLMs中量化边界的拓展。我们证明Hadamard矩阵在减少异常值方面更为有效，异常值是实现低比特量化的主要障碍。基于逐步二分搜索的方法使我们能够实现权重、激活值和键值缓冲（KV）的3比特量化，在常见基准上的准确率比最先进的方法提高了40%。我们通过使用Paley算法将旋转矩阵的使用扩展到支持非2的幂嵌入维度，类似于Qwen架构。我们从理论上证明了Hadamard矩阵在减少异常值方面的优越性。我们实现了权重、激活值和KV缓存的3比特量化，显著增强了模型性能。在Mistral、LLaMA和Qwen等多种模型系列上的实验结果证明了我们方法的有效性，优于现有方法，并实现了实际的3比特量化。