LLM2D
MixPE:高效LLM推理的量化与硬件协同设计
MixPE: Quantization and Hardware Co-design for Efficient LLM Inference
作者: Yu Zhang, Mingzi Wang, Lancheng Zou, Wulong Liu, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16158v1

摘要

基于Transformer的大型语言模型(LLM)随着模型规模的不断增长取得了显著成功,但由于巨大的计算和内存需求,其部署仍然面临挑战。量化已成为一种有前景的解决方案,而最先进的LLM量化算法引入了混合精度矩阵乘法(mpGEMM)的需求,其中低精度权重与高精度激活值相乘。尽管它具有优势,但当前的硬件加速器(如GPU和TPU)缺乏对高效mpGEMM的原生支持,导致主顺序循环中的去量化操作效率低下。为了解决这一限制,我们引入了MixPE,这是一种专门用于LLM推理中高效低比特量化的混合精度处理单元。MixPE利用两项关键创新来最大限度地减少去量化开销并释放低比特量化的全部潜力。首先,认识到比例因子和零点在每个量化组内共享,我们建议在每个组的mpGEMM之后执行去量化,从而显著减少去量化开销。其次,MixPE不依赖于传统的乘法器,而是利用高效的移位和加法运算进行乘法运算,从而优化计算和能效。我们的实验结果表明,MixPE比最先进的量化加速器提高了2.6倍的速度和1.4倍的能效。