LLM2D
潮汐解码:基于位置持久稀疏注意力机制的快速准确的 LLM 解码
TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention
作者: Lijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05076v1

摘要

大型语言模型 (LLM) 在各种自然语言处理任务中取得了重大进展,其中长上下文模型因其处理扩展输入的能力而备受关注。然而,Transformer 架构所需的不断扩大的键值 (KV) 缓存大小加剧了内存限制,尤其是在解码阶段,造成了严重的瓶颈。现有的旨在解决此瓶颈的稀疏注意力机制存在两个局限性:(1)它们往往无法可靠地识别出最相关的注意力标记,以及 (2) 它们忽略了连续 Transformer 层中标记选择的空间一致性,这会导致性能下降和标记选择方面的巨大开销。本文介绍了 TidalDecode,这是一种简单但有效的算法和系统,通过位置持久稀疏注意力来实现快速准确的 LLM 解码。TidalDecode 利用现有稀疏注意力方法选择的标记的空间一致性,并引入了一些标记选择层,这些层执行全注意力以识别具有最高注意力分数的标记,而所有其他层则使用预选标记执行稀疏注意力。这种设计使 TidalDecode 能够大幅降低稀疏注意力的标记选择开销,而不会牺牲生成结果的质量。在一组不同的 LLM 和任务上的评估表明,TidalDecode 与全注意力方法的生成性能非常接近,同时将 LLM 解码延迟降低了高达 2.1 倍。