LLM2D
星注意:高效处理长序列的LLM推理
Star Attention: Efficient LLM Inference over Long Sequences
作者: Shantanu Acharya, Fei Jia, Boris Ginsburg
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2411.17116v2

摘要

arXiv:2411.17116v2 宣告类型:replace-cross 摘要:基于Transformer的大语言模型(LLMs)在长序列上的推理既昂贵又慢,原因在于自我注意力机制的二次复杂度。我们引入了一种两阶段的块稀疏近似方法——Star Attention,通过在多个主机之间划分注意力来提高计算效率,同时最小化通信开销。在第一阶段,上下文通过主机之间的块局部注意力并行处理。在第二阶段,查询和响应标记通过序列全局注意力关注所有先前缓存的标记。Star Attention 无缝集成了大多数使用全局注意力训练的基于Transformer的大语言模型,将内存需求和推理时间分别减少多达11倍,同时保持97-100%的准确性。