LLM2D
窄精度LLM推理中BFP的极限探索
Pushing the Limits of BFP on Narrow Precision LLM Inference
作者: Hui Wang, Yuan Cheng, Xiaomeng Han, Zhengpeng Zhao, Dawei Yang, Zhe Jiang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00026v1

摘要

arXiv:2502.00026v1 类型:交叉 摘要:大型语言模型(LLMs)的巨额计算和内存需求阻碍了其部署。浮动小数点格式(Floating Point,FP)在加速线性操作方面已经证明是有效的,而线性操作是LLM工作负载的核心。然而,随着序列长度的增长,注意力等非线性操作因其二次计算复杂度逐渐成为性能瓶颈,这些非线性操作主要采用低效的浮点格式执行,使得系统优化软件效率和硬件开销变得困难。在本文中,我们探讨了将浮动小数点格式(BFP)应用于非线性操作的局限性和潜在可能。根据我们的发现,我们提出了一种硬件-软件协同设计框架(DB-Attn),包括:(i)DBFP,一种先进的BFP版本,采用重心聚焦策略应对多种数据挑战,并采用自适应分组策略灵活共享指数。(ii)DH-LUT,一种专门用于加速使用DBFP格式的非线性操作的新查找表算法。(iii)基于DBFP的RTL级引擎实现,支持DB-Attn,并适用于FPGA和ASIC。结果显示,DB-Attn在软化LLaMA的Softmax方面提供了显著的性能提升,且几乎不损失精度,并且相对于最新设计,实现了10倍的低开销性能提升。