LLM2D

摘要

arXiv:2502.00026v1 类型：交叉摘要：大型语言模型（LLMs）的巨额计算和内存需求阻碍了其部署。浮动小数点格式（Floating Point，FP）在加速线性操作方面已经证明是有效的，而线性操作是LLM工作负载的核心。然而，随着序列长度的增长，注意力等非线性操作因其二次计算复杂度逐渐成为性能瓶颈，这些非线性操作主要采用低效的浮点格式执行，使得系统优化软件效率和硬件开销变得困难。在本文中，我们探讨了将浮动小数点格式（BFP）应用于非线性操作的局限性和潜在可能。根据我们的发现，我们提出了一种硬件-软件协同设计框架（DB-Attn），包括：（i）DBFP，一种先进的BFP版本，采用重心聚焦策略应对多种数据挑战，并采用自适应分组策略灵活共享指数。（ii）DH-LUT，一种专门用于加速使用DBFP格式的非线性操作的新查找表算法。（iii）基于DBFP的RTL级引擎实现，支持DB-Attn，并适用于FPGA和ASIC。结果显示，DB-Attn在软化LLaMA的Softmax方面提供了显著的性能提升，且几乎不损失精度，并且相对于最新设计，实现了10倍的低开销性能提升。