摘要
arXiv:2502.01770v1 类型: cross
摘要: 带有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵,常常由于其高计算和内存要求而限制了其实用部署。在本文中,我们提出了哈明注意蒸馏(HAD),这是一种新颖的框架,通过二值化注意机制中的键和查询来实现显著的效率提升。通过将键和查询转换为{-1, +1}向量,并用高效的哈明距离计算替换点积操作,我们的方法大幅减少了计算开销。此外,我们结合注意力矩阵稀疏化来剪除低影响激活,进一步降低了处理长上下文序列的成本。
尽管采用了这些激进的压缩策略,我们的蒸馏方法仍然保持了较高的表示能力,相比于之前的方法,产生了显著提高的精度。我们在包括GLUE基准、ImageNet和QuALITY等一系列任务和模型上评估了HAD,展示了在二值化变压器中的顶级性能,同时极大地降低了长上下文推理的成本。
我们用自定义硬件模拟实现了HAD,展示了其在自定义硬件实现标准注意机制方面的优越性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$,而最先进的二值化工作中的性能损失为$9.08\%$;在ImageNet上的性能损失仅$\mathbf{2.5}\%$,而最先进的二值化工作中的性能损失为$12.14\%$。同时,相比于其标准注意力的对应版本,HAD的目标自定义硬件面积减少了$\mathbf{79}\%$,功耗减少了$\mathbf{87}\%$。