LLM2D

摘要

arXiv:2502.01770v1 类型: cross 摘要: 带有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵，常常由于其高计算和内存要求而限制了其实用部署。在本文中，我们提出了哈明注意蒸馏（HAD），这是一种新颖的框架，通过二值化注意机制中的键和查询来实现显著的效率提升。通过将键和查询转换为{-1, +1}向量，并用高效的哈明距离计算替换点积操作，我们的方法大幅减少了计算开销。此外，我们结合注意力矩阵稀疏化来剪除低影响激活，进一步降低了处理长上下文序列的成本。尽管采用了这些激进的压缩策略，我们的蒸馏方法仍然保持了较高的表示能力，相比于之前的方法，产生了显著提高的精度。我们在包括GLUE基准、ImageNet和QuALITY等一系列任务和模型上评估了HAD，展示了在二值化变压器中的顶级性能，同时极大地降低了长上下文推理的成本。我们用自定义硬件模拟实现了HAD，展示了其在自定义硬件实现标准注意机制方面的优越性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$，而最先进的二值化工作中的性能损失为$9.08\%$；在ImageNet上的性能损失仅$\mathbf{2.5}\%$，而最先进的二值化工作中的性能损失为$12.14\%$。同时，相比于其标准注意力的对应版本，HAD的目标自定义硬件面积减少了$\mathbf{79}\%$，功耗减少了$\mathbf{87}\%$。