LLM2D

摘要

arXiv:2504.06949v1 宣布类型: cross 摘要: 最近提出的遗忘变换器（FoX）将忘却门引入到softmax注意力中，并且与基于标准RoPE的变换器相比，它在性能上显示出了持续更优或相当的结果。值得注意的是，FoX中的许多注意力头倾向于快速忘却，导致它们在每个时间步的输出主要依赖于局部上下文。基于这一观察，我们为FoX提出了自适应计算剪枝（ACP），这是一种动态剪枝输入-输出依赖计算的方法，这些依赖计算被忘却门强烈衰减。这通过使用动态设置的剪枝阈值来实现，以确保剪枝后的注意权重仍然可以忽略不计。我们将ACP应用于带有FoX的语言模型预训练，并展示了无论模型大小和上下文长度如何，它都能一致地将softmax注意力的运算量降低约70%，从而在训练吞吐量上取得了大约10%到35%的提升。此外，更长的上下文长度能带来更大的计算节省。所有这些速度提升都是在没有性能下降的情况下实现的。我们还进行了若干分析，以更深入地了解我们的方法，例如检查剪枝模式，并分析不同注意力头之间运算量节省的分布情况。我们的代码可在 https://github.com/zhixuan-lin/arctic-fox 获取。