LLM2D
汉明注意力蒸馏:二值化键和查询以实现高效长上下文变换器
Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers
作者: Mark Horton, Tergel Molom-Ochir, Peter Liu, Bhavna Gopal, Chiyue Wei, Cong Guo, Brady Taylor, Deliang Fan, Shan X. Wang, Hai Li, Yiran Chen
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01770v1

摘要

arXiv:2502.01770v1 类型:交叉 摘要:具有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵,往往由于其高强度的计算和内存要求而限制了其实用部署。在本文中,我们引入了一种新颖的框架——汉明注意力蒸馏(HAD),该框架将注意力机制中的键和查询二值化,以实现显著的效率提升。通过将键和查询转换为{-1, +1}向量,并用高效的汉明距离计算替代点积操作,我们的方法大幅减少了计算开销。此外,我们还结合了注意力矩阵稀疏化,以修剪影响较小的激活,进一步减少了处理长上下文序列的成本。 尽管采用了这些激进的压缩策略,但我们的蒸馏方法仍保留了较高的表示能力,相比之前的变压器二值化方法,其准确性得到了显著提升。我们对HAD在一系列任务和模型上进行了评估,包括GLUE基准、ImageNet和QuALITY,展示了在各种二值化变压器中居于领先地位的同时,显著降低了长上下文推理的计算成本。 我们还在自定义硬件模拟中实现了HAD,与标准注意力机制的自定义硬件实现相比,展示了更优越的性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$,相比最先进的二值化工作,性能损失降低了$9.08\%$;在ImageNet上的性能损失仅为$\mathbf{2.5}\%$,相比最先进的二值化工作,性能损失降低了$12.14\%$。此外,与标准注意力机制相比,HAD在目标自定义硬件上实现了$\mathbf{79}\%$的面积减少和$\mathbf{87}\%$的功率减少。