LLM2D

摘要

arXiv:2503.14376v2 宣告类型: replace-cross 摘要: 具有门控机制的线性RNN最近在语言建模方面展示了与Transformer相竞争的性能。尽管它们在序列长度上的线性计算扩展在理论上为Transformer提供了运行时间优势，但在实践中实现这些优势需要优化的定制内核，因为Transformer依赖于高度高效的Flash Attention内核（Dao, 2024）。利用线性RNN的分块并行形式，Flash Linear Attention (FLA) (Yang & Zhang, 2024) 显示出线性RNN内核比Flash Attention更快，通过在输入序列的块上并行化实现。然而，由于FLA的块大小有限，许多中间状态必须在GPU内存中实现。这导致了低算术强度和高内存消耗及IO成本，尤其是在长上下文预训练时。在本工作中，我们提出了一种新的线性RNN内核算法Tiled Flash Linear Attention (TFLA)，通过在每个块内引入额外的序列并行化层次，使得可以实现任意大的块大小和高算术强度。首先，我们将TFLA应用于具有矩阵记忆的xLSTM。其次，我们提出了一种具有Sigmoid输入门控和减少计算量的mLSTM变体，即使在相等的语言建模性能下也能实现更快的内核运行时间。在我们的速度基准测试中，我们展示了基于TFLA的新mLSTM内核超越了高度优化的Flash Attention、Linear Attention和Mamba内核，为高效长上下文序列建模提供了新的性能标准。