摘要
arXiv:2502.00026v2 宣布类型: 替换交叉
摘要:大型语言模型(LLMs)的大量计算和内存需求阻碍了它们的部署。浮点数块表示(BFP)已被证明在加速线性操作方面非常有效,线性操作是LLM负载的核心。然而,随着序列长度的增长,如注意力这样的非线性操作由于其二次计算复杂性逐渐成为性能瓶颈。这些非线性操作大多使用效率低的浮点格式执行,使得系统难以优化软件效率并减少硬件开销。在本文中,我们探讨了将BFP应用于非线性操作的限制和潜力。根据我们的发现,我们引入了一个硬件软件协同设计框架(DB-Attn),包括:(i) DBFP,一种改进的BFP版本,通过多样数据的枢轴聚焦策略和灵活的指数共享策略来克服非线性操作挑战。(ii) DH-LUT,一种专门用于加速DBFP格式下非线性操作的新查找表算法。(iii) 在RTL级别实现基于DBFP的引擎,适用于FPGA和ASIC。结果显示,DB-Attn在显著性能提升的同时几乎不损失精度,在LLaMA的Softmax上实现了74%的GPU加速,并且比现有最佳设计具有10倍的低开销性能提升。