摘要
arXiv:2503.02130v2 宣布类型: 替换-交叉
摘要:现代递归序列模型的一个关键组成部分是遗忘门。虽然变压器没有显式的递归形式,但我们表明,可以以数据依赖的方式降低未标准化的注意力得分来自然地将遗忘门纳入变压器中。我们称这种注意力机制为遗忘注意力,并将由此产生的模型称为遗忘变压器(FoX)。我们展示了在长上下文语言建模、长度外推以及短上下文下游任务中,FoX 的性能优于变压器,而在长上下文下游任务中的表现则与变压器相当。此外,它与 FlashAttention 算法兼容,并不需要任何位置嵌入。包括针扎干草堆测试在内的多项分析表明,FoX 也保留了变压器在相对于 Mamba-2、HGRN2 和 DeltaNet 等递归序列模型的长上下文能力上的优越性。我们还引入了一种“Pro”块设计,该设计包括一些在递归序列模型中常见的架构组件,并发现它显着提高了 FoX 和变压器的性能。我们的代码可在 https://github.com/zhixuan-lin/forgetting-transformer 获取。