摘要
arXiv:2502.01770v1 类型:交叉
摘要:具有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵,往往由于其高强度的计算和内存要求而限制了其实用部署。在本文中,我们引入了一种新颖的框架——汉明注意力蒸馏(HAD),该框架将注意力机制中的键和查询二值化,以实现显著的效率提升。通过将键和查询转换为{-1, +1}向量,并用高效的汉明距离计算替代点积操作,我们的方法大幅减少了计算开销。此外,我们还结合了注意力矩阵稀疏化,以修剪影响较小的激活,进一步减少了处理长上下文序列的成本。
尽管采用了这些激进的压缩策略,但我们的蒸馏方法仍保留了较高的表示能力,相比之前的变压器二值化方法,其准确性得到了显著提升。我们对HAD在一系列任务和模型上进行了评估,包括GLUE基准、ImageNet和QuALITY,展示了在各种二值化变压器中居于领先地位的同时,显著降低了长上下文推理的计算成本。
我们还在自定义硬件模拟中实现了HAD,与标准注意力机制的自定义硬件实现相比,展示了更优越的性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$,相比最先进的二值化工作,性能损失降低了$9.08\%$;在ImageNet上的性能损失仅为$\mathbf{2.5}\%$,相比最先进的二值化工作,性能损失降低了$12.14\%$。此外,与标准注意力机制相比,HAD在目标自定义硬件上实现了$\mathbf{79}\%$的面积减少和$\mathbf{87}\%$的功率减少。