LLM2D
汉明注意力蒸馏:二值化键和查询以实现高效长上下文变压器
Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers
作者: Mark Horton, Tergel Molom-Ochir, Peter Liu, Bhavna Gopal, Chiyue Wei, Cong Guo, Brady Taylor, Deliang Fan, Shan X. Wang, Hai Li, Yiran Chen
发布日期: 2/5/2025
arXiv ID: 2502.01770

摘要

arXiv:2502.01770v1 类型: cross 摘要: 带有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵,常常由于其高计算和内存要求而限制了其实用部署。在本文中,我们提出了哈明注意蒸馏(HAD),这是一种新颖的框架,通过二值化注意机制中的键和查询来实现显著的效率提升。通过将键和查询转换为{-1, +1}向量,并用高效的哈明距离计算替换点积操作,我们的方法大幅减少了计算开销。此外,我们结合注意力矩阵稀疏化来剪除低影响激活,进一步降低了处理长上下文序列的成本。 尽管采用了这些激进的压缩策略,我们的蒸馏方法仍然保持了较高的表示能力,相比于之前的方法,产生了显著提高的精度。我们在包括GLUE基准、ImageNet和QuALITY等一系列任务和模型上评估了HAD,展示了在二值化变压器中的顶级性能,同时极大地降低了长上下文推理的成本。 我们用自定义硬件模拟实现了HAD,展示了其在自定义硬件实现标准注意机制方面的优越性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$,而最先进的二值化工作中的性能损失为$9.08\%$;在ImageNet上的性能损失仅$\mathbf{2.5}\%$,而最先进的二值化工作中的性能损失为$12.14\%$。同时,相比于其标准注意力的对应版本,HAD的目标自定义硬件面积减少了$\mathbf{79}\%$,功耗减少了$\mathbf{87}\%$。