摘要
arXiv:2407.00088v2 宣告类型: replace-cross
摘要:在边缘设备上部署大型语言模型(LLMs)越来越重要,以增强设备上的智能。权重量化是减少边缘设备上LLMs内存占用的关键。然而,低比特LLMs在推理过程中需要低精度权重和高精度激活的混合精度矩阵乘法(mpGEMM),现有的系统缺乏对mpGEMM的原生支持,因此不得不对权重进行去量化以进行高精度计算。这种间接方式会导致显著的推理开销。
在本文中,我们提出了T-MAC,一种基于查找表(LUT)的创新方法,用于在CPU上高效进行低比特LLMs(即权重量化后的LLMs)的推理。T-MAC无需去量化即可直接支持mpGEMM,同时减少乘法次数并降低加法次数。具体而言,T-MAC将传统的基于数据类型的操作变为位级别的查找表查找,并实现了统一且可扩展的mpGEMM解决方案。
以查找表为基础的内核随着权重位宽线性扩展。在对低比特Llama和BitNet模型进行评估时,与llama.cpp相比,T-MAC的吞吐量提高了4倍,能耗降低了70%。对于BitNet-b1.58-3B,T-MAC在M2-Ultra上使用单核时实现了每秒30个token的生成吞吐量,在八核时实现了每秒71个token的吞吐量,而在较低配置的设备上如Raspberry Pi 5,T-MAC实现了每秒11个token的吞吐量,这远远超过了成人平均阅读速度。T-MAC基于查找表的计算范式为在资源受限的边缘设备上实用化低比特LLMs铺平了道路,而不牺牲计算效率。该系统已在https://github.com/microsoft/T-MAC 开源。