LLM2D
Anda:一种基于变长分组激活数据格式的高效大型语言模型推理方法
Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format
作者: Chao Fang, Man Shi, Robin Geens, Arne Symons, Zhongfeng Wang, Marian Verhelst
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15982v1

摘要

广泛使用的仅权重量化大型语言模型(LLM)利用低位整数 (INT) 权重并保留浮点数 (FP) 激活,从而降低了存储需求,同时保持了精度。然而,这将能量和延迟瓶颈转移到了与代价高昂的内存访问和计算相关的 FP 激活上。现有的 LLM 加速器主要关注计算优化,而忽略了联合优化 FP 计算和数据移动的潜力,特别是对于 LLM 推理中占主导地位的 FP-INT GeMM 运算。 为了解决这些挑战,我们研究了不同 LLM 模块中激活精度的敏感性及其对整体模型精度的影响。基于我们的发现,我们首先提出了 Anda 数据类型:一种具有组共享指数位和动态尾数位分配的自适应数据格式。其次,我们开发了一种迭代式训练后自适应精度搜索算法,该算法优化不同 LLM 模块的位宽,以平衡模型精度、能源效率和推理速度。最后,提出了一套硬件优化技术,以最大限度地利用 Anda 格式的优势。这些技术包括基于位平面的数据组织方案、具有位串行计算的 Anda 增强处理单元以及运行时位平面 Anda 压缩器,以同时优化存储、计算和内存占用。我们对 FPINT GeMM 运算的评估表明,对于 OPT、LLaMA 和 LLaMA-2 系列等流行的 LLM,Anda 在 GPU 级 FP-FP 基线上的平均速度提升了 2.4 倍,面积效率提高了 4.0 倍,能源效率提高了 3.1 倍。Anda 在各种应用场景、精度要求和系统性能方面都表现出强大的适应性,能够在广泛的部署场景中实现高效的 LLM 推理。