摘要
arXiv:2502.13189v1 Announce Type: cross
摘要:扩展有效的上下文长度对于推动大规模语言模型(LLMs)向通用人工智能(AGI)发展是至关重要的。然而,传统注意力机制中固有的计算复杂性的平方级增长造成了巨大的开销。现有的方法要么引入强偏置结构,如sink或窗口注意力,这些结构是任务特定的,要么从根本上将注意力机制改造成线性近似,其在复杂推理任务中的性能仍然未得到充分探索。
在本文中,我们提出了一种遵循“少结构”原则的解决方案,允许模型自主决定何时以及如何关注,而不是引入预定义的偏置。我们引入了一种名为混合块注意力(MoBA)的新颖方法,将专家混合(MoE)原则应用于注意力机制。这种新型架构在处理长上下文任务时表现出优越的性能,其关键优势在于能够无缝地在全注意力和稀疏注意力之间转换,提高了效率而不牺牲性能。MoBA已经部署以支持Kimi的长上下文请求,并在LLMs的高效注意力计算方面展示了显著的进步。我们的代码可在https://github.com/MoonshotAI/MoBA获得。