LLM2D
LServe: 统一稀疏注意力机制的高效长序列语言模型服务
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention
作者: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2502.14866v2

摘要

arXiv:2502.14866v2 通告类型: replace-cross 摘要:大型语言模型(LLMs)在处理长序列和复杂推理任务方面展现了显著的潜力,但由于预填充阶段注意力机制的二次计算复杂性和解码阶段 KV 缓存的大量内存占用,高效地服务这些模型仍然具有挑战性。为了解决这些问题,我们提出了 LServe,这是一种高效的系统,通过混合稀疏注意机制加速长序列 LLM 的服务。这种方法将预填充和解码注意机制中不同的硬件友好型结构稀疏模式统一到一个框架中,其中对于较不重要的标记的计算是以块为单位跳过的。LServe 展示了在长上下文 LLM 注意机制中静态和动态稀疏性的兼容性。这一设计通过结合这些优化实现了乘法加速。具体而言,我们将在预填充和解码阶段将一半的注意头转换为几乎免费的流式注意头。此外,我们发现,无论上下文长度如何,仅需要恒定数量的 KV 页面即可保持长上下文和推理能力。然后,我们设计了一个分层的 KV 页面选择策略,该策略基于查询中心相似性动态修剪 KV 页面。与 vLLM 相比,LServe 在 LLM 预填充上最多加速 2.9 倍,在解码上加速 1.3 到 2.1 倍,同时保持长上下文准确性。代码已发布在 https://github.com/mit-han-lab/omniserve。