LLM2D
适配计算剪枝用于遗忘变换器
Adaptive Computation Pruning for the Forgetting Transformer
作者: Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06949v1

摘要

arXiv:2504.06949v1 宣布类型: cross 摘要: 最近提出的遗忘变换器(FoX)将忘却门引入到softmax注意力中,并且与基于标准RoPE的变换器相比,它在性能上显示出了持续更优或相当的结果。值得注意的是,FoX中的许多注意力头倾向于快速忘却,导致它们在每个时间步的输出主要依赖于局部上下文。基于这一观察,我们为FoX提出了自适应计算剪枝(ACP),这是一种动态剪枝输入-输出依赖计算的方法,这些依赖计算被忘却门强烈衰减。这通过使用动态设置的剪枝阈值来实现,以确保剪枝后的注意权重仍然可以忽略不计。我们将ACP应用于带有FoX的语言模型预训练,并展示了无论模型大小和上下文长度如何,它都能一致地将softmax注意力的运算量降低约70%,从而在训练吞吐量上取得了大约10%到35%的提升。此外,更长的上下文长度能带来更大的计算节省。所有这些速度提升都是在没有性能下降的情况下实现的。我们还进行了若干分析,以更深入地了解我们的方法,例如检查剪枝模式,并分析不同注意力头之间运算量节省的分布情况。我们的代码可在 https://github.com/zhixuan-lin/arctic-fox 获取。