LLM2D

摘要

大型语言模型 (LLM) 在各种自然语言处理任务中取得了重大进展，其中长上下文模型因其处理扩展输入的能力而备受关注。然而，Transformer 架构所需的不断扩大的键值 (KV) 缓存大小加剧了内存限制，尤其是在解码阶段，造成了严重的瓶颈。现有的旨在解决此瓶颈的稀疏注意力机制存在两个局限性：（1）它们往往无法可靠地识别出最相关的注意力标记，以及 (2) 它们忽略了连续 Transformer 层中标记选择的空间一致性，这会导致性能下降和标记选择方面的巨大开销。本文介绍了 TidalDecode，这是一种简单但有效的算法和系统，通过位置持久稀疏注意力来实现快速准确的 LLM 解码。TidalDecode 利用现有稀疏注意力方法选择的标记的空间一致性，并引入了一些标记选择层，这些层执行全注意力以识别具有最高注意力分数的标记，而所有其他层则使用预选标记执行稀疏注意力。这种设计使 TidalDecode 能够大幅降低稀疏注意力的标记选择开销，而不会牺牲生成结果的质量。在一组不同的 LLM 和任务上的评估表明，TidalDecode 与全注意力方法的生成性能非常接近，同时将 LLM 解码延迟降低了高达 2.1 倍。