摘要
基于Transformer的大型语言模型(LLM)在长序列上的推理由于自注意力机制的二次复杂度而代价高昂且速度缓慢。我们引入了星型注意力机制,这是一种两阶段的块稀疏近似方法,通过将注意力跨多个主机分片来提高计算效率,同时最大限度地减少通信开销。在第一阶段,上下文使用块内局部注意力在多个主机上并行处理。在第二阶段,查询和响应标记通过序列全局注意力关注所有先前缓存的标记。星型注意力可以与大多数使用全局注意力训练的基于Transformer的LLM无缝集成,将内存需求和推理时间最多减少11倍,同时保持95-100%的准确率。