LLM2D

摘要

arXiv:2407.00088v2 宣告类型: replace-cross 摘要：在边缘设备上部署大型语言模型（LLMs）越来越重要，以增强设备上的智能。权重量化是减少边缘设备上LLMs内存占用的关键。然而，低比特LLMs在推理过程中需要低精度权重和高精度激活的混合精度矩阵乘法（mpGEMM），现有的系统缺乏对mpGEMM的原生支持，因此不得不对权重进行去量化以进行高精度计算。这种间接方式会导致显著的推理开销。在本文中，我们提出了T-MAC，一种基于查找表（LUT）的创新方法，用于在CPU上高效进行低比特LLMs（即权重量化后的LLMs）的推理。T-MAC无需去量化即可直接支持mpGEMM，同时减少乘法次数并降低加法次数。具体而言，T-MAC将传统的基于数据类型的操作变为位级别的查找表查找，并实现了统一且可扩展的mpGEMM解决方案。以查找表为基础的内核随着权重位宽线性扩展。在对低比特Llama和BitNet模型进行评估时，与llama.cpp相比，T-MAC的吞吐量提高了4倍，能耗降低了70%。对于BitNet-b1.58-3B，T-MAC在M2-Ultra上使用单核时实现了每秒30个token的生成吞吐量，在八核时实现了每秒71个token的吞吐量，而在较低配置的设备上如Raspberry Pi 5，T-MAC实现了每秒11个token的吞吐量，这远远超过了成人平均阅读速度。T-MAC基于查找表的计算范式为在资源受限的边缘设备上实用化低比特LLMs铺平了道路，而不牺牲计算效率。该系统已在https://github.com/microsoft/T-MAC 开源。