摘要
arXiv:2502.11089v1 交叉类型: cross
摘要: 长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本提出了显著的计算挑战。稀疏注意力提供了一种有希望的方向,可以在保持模型能力的同时提高效率。我们介绍了Nativa School(Native Sparse Attention)机制,该机制结合了算法创新与硬件对齐的优化,以实现高效的长上下文建模。Nativa School采用动态分层稀疏策略,结合粗粒度的TOKEN压缩与细粒度的TOKEN选择,以保留全局上下文意识和局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计:(1)通过算术强度平衡的算法设计实现显著的加速,并对现代硬件进行了实施优化。(2)实现端到端训练,减少预训练计算量而不牺牲模型性能。如图1所示,实验结果表明,使用Nativa School预训练的模型在通用基准、长上下文任务和指令推理方面,维持或超过了全注意力模型的表现。同时,Nativa School在64k长度序列的解码、正向传播和反向传播过程中相对于全注意力机制实现了显著的加速,验证了其在整个模型生命周期中的高效性。