LLM2D

摘要

arXiv:2502.14866v1 宣告类型: cross 摘要：大规模语言模型（LLMs）在处理长序列方面展现了显著的潜力，但在预填充阶段的注意力机制的二次计算复杂性以及解码阶段KV缓存的巨大内存占用使得有效地服务于这些长上下文模型仍然具有挑战性。为了解决这些问题，我们提出了LServe，这是一种通过混合稀疏注意力加速长序列LLM服务的高效系统。该方法将预填充和解码注意力的不同硬件友好型、结构化稀疏模式统一到一个框架中，在处理不重要的token时，逐块跳过计算。LServe展示了静态和动态稀疏模式在长上下文LLM注意力机制中的兼容性。这种设计通过结合这些优化措施实现了乘法加速。具体而言，我们在预填充和解码阶段将一半的注意力头转换为接近免费的流式注意力头。此外，我们发现仅需一个常数数量的KV页面即可保持长上下文能力，与上下文长度无关。我们随后设计了一种分层的KV页面选择策略，根据查询中心的相似性动态剪枝KV页面。平均而言，与vLLM相比，LServe将LLM预填充加速至最高2.9倍，解码加速至1.3到2.1倍，同时保持长上下文的准确性。代码在 https://github.com/mit-han-lab/omniserve 释放。