LLM2D

摘要

arXiv:2502.01770v1 类型:交叉摘要：具有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵，往往由于其高强度的计算和内存要求而限制了其实用部署。在本文中，我们引入了一种新颖的框架——汉明注意力蒸馏（HAD），该框架将注意力机制中的键和查询二值化，以实现显著的效率提升。通过将键和查询转换为{-1, +1}向量，并用高效的汉明距离计算替代点积操作，我们的方法大幅减少了计算开销。此外，我们还结合了注意力矩阵稀疏化，以修剪影响较小的激活，进一步减少了处理长上下文序列的成本。尽管采用了这些激进的压缩策略，但我们的蒸馏方法仍保留了较高的表示能力，相比之前的变压器二值化方法，其准确性得到了显著提升。我们对HAD在一系列任务和模型上进行了评估，包括GLUE基准、ImageNet和QuALITY，展示了在各种二值化变压器中居于领先地位的同时，显著降低了长上下文推理的计算成本。我们还在自定义硬件模拟中实现了HAD，与标准注意力机制的自定义硬件实现相比，展示了更优越的性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$，相比最先进的二值化工作，性能损失降低了$9.08\%$；在ImageNet上的性能损失仅为$\mathbf{2.5}\%$，相比最先进的二值化工作，性能损失降低了$12.14\%$。此外，与标准注意力机制相比，HAD在目标自定义硬件上实现了$\mathbf{79}\%$的面积减少和$\mathbf{87}\%$的功率减少。