LLM2D
原生稀疏注意力:硬件对齐且本原可训练的稀疏注意力
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11089v1

摘要

arXiv:2502.11089v1 交叉类型: cross 摘要: 长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本提出了显著的计算挑战。稀疏注意力提供了一种有希望的方向,可以在保持模型能力的同时提高效率。我们介绍了Nativa School(Native Sparse Attention)机制,该机制结合了算法创新与硬件对齐的优化,以实现高效的长上下文建模。Nativa School采用动态分层稀疏策略,结合粗粒度的TOKEN压缩与细粒度的TOKEN选择,以保留全局上下文意识和局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计:(1)通过算术强度平衡的算法设计实现显著的加速,并对现代硬件进行了实施优化。(2)实现端到端训练,减少预训练计算量而不牺牲模型性能。如图1所示,实验结果表明,使用Nativa School预训练的模型在通用基准、长上下文任务和指令推理方面,维持或超过了全注意力模型的表现。同时,Nativa School在64k长度序列的解码、正向传播和反向传播过程中相对于全注意力机制实现了显著的加速,验证了其在整个模型生命周期中的高效性。