LLM2D
longer 注意力跨度: 通过稀疏图处理技术增加Transformer上下文长度
Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques
作者: Nathaniel Tomczak, Sanmukh Kuppannagari
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01659v1

摘要

arXiv:2502.01659v1 Announce Type: cross 摘要:变换器在自然语言处理和生物信息学等多个领域都取得了巨大的成功。这种成功源于这些模型使用注意力机制来表示和传播序列数据中单个标记之间的成对交互。然而,这种操作的主要限制是其与输入上下文长度成二次的内存和时间复杂度——即需要捕捉交互的序列长度。这极大地限制了这些模型能够推断的序列长度。为了减少成对交互的数量,使其与上下文长度成次二次关系,研究人员通过引入注意力机制的稀疏性来减少注意力掩码中的交互数量,进行了大量研究。然而,高效的实现“真正稀疏性”的方法仍然缺乏。 在这项工作中,我们通过提出一种图计算视角的注意力机制来解决这一问题,其中将标记视为图的节点,注意力掩码决定图的边。基于这种视角,我们开发了图处理算法来实现注意力机制。理论上和实验上,我们证明了我们的算法仅执行所需的计算,即它们是工作最优的。我们还使用流行的注意力掩码进行了广泛的实验,探索稀疏性对执行时间和可实现上下文长度的影响。我们的实验表明,与最先进的注意力实现方法(如用于长序列的FlashAttention)相比,我们的算法在执行时间上有显著的加速。我们还证明了我们的算法能够在单个NVIDIA A100 GPU(SXM4 80GB)上实现高达1.6亿的极长序列长度。