LLM2D

摘要

arXiv:2502.11089v1 交叉类型: cross 摘要: 长上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本提出了显著的计算挑战。稀疏注意力提供了一种有希望的方向，可以在保持模型能力的同时提高效率。我们介绍了Nativa School(Native Sparse Attention)机制，该机制结合了算法创新与硬件对齐的优化，以实现高效的长上下文建模。Nativa School采用动态分层稀疏策略，结合粗粒度的TOKEN压缩与细粒度的TOKEN选择，以保留全局上下文意识和局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计：（1）通过算术强度平衡的算法设计实现显著的加速，并对现代硬件进行了实施优化。（2）实现端到端训练，减少预训练计算量而不牺牲模型性能。如图1所示，实验结果表明，使用Nativa School预训练的模型在通用基准、长上下文任务和指令推理方面，维持或超过了全注意力模型的表现。同时，Nativa School在64k长度序列的解码、正向传播和反向传播过程中相对于全注意力机制实现了显著的加速，验证了其在整个模型生命周期中的高效性。