摘要
arXiv:2501.14577v2 宣传类型: 替换交叉
摘要:近年来,Transformer 成为序列建模架构中的基本构建块。然而,在其核心是使用自注意力机制,其内存和计算成本随序列长度 \(N\) 呈平方增长,使得在长序列上变得极其昂贵。一种有前景的方法是 top-\(k\) 注意力,它只选择最相关的 \(k\) 个 token,并在显著减少空间和计算需求的同时,实现了类似于常规自注意力的性能。然而,因果掩码要求当前查询 token 只能关注过去的 token,这阻止了现有 top-\(k\) 注意力方法能够并行高效地搜索最相关的 token,从而限制了训练效率。在本文中,我们提出了 ZETA,利用 \(\textbf{Z}\)-Order 曲线进行 \(\textbf{E}\) 高效 \(\textbf{T}\) op-\(\textbf{k}\) \(\textbf{A}\) 注意力,以并行查询整个序列中的 past token。我们首先从理论上表明,键和查询维度的选择涉及维度灾难与投影后相对距离保持之间的权衡。基于这一洞察,我们建议减少键和查询的维度,而不同于值,并进一步利用 \(\textbf{Z}\)-Order 曲线将低维度的键和查询映射到 \(\emph{一}\) 维空间,从而允许并行排序,极大地提高了 top-\(k\) token 选择的效率。实验结果表明,ZETA 在合成的 \textsc{Multi-Query 重组提取} 任务上与标准注意力相当,并且在 \textsc{Long Range 农场} 和 \textsc{WikiText-103} 语言建模上优于注意力及其变种。