LLM2D
层级KV缓存管理:优化大型语言模型服务
LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management
作者: Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00428v1

摘要

大型语言模型(LLM)不断扩展的上下文窗口极大地增强了其在各种应用中的能力,但也带来了保持低延迟的重大挑战,尤其是在首个词符时间(TTFT)方面。本文发现,随着上下文长度的增加,TTFT 的急剧上升主要由排队延迟驱动,而排队延迟是由对 GPU 键值 (KV) 缓存分配不断增长的需求与有限的 KV 缓存块可用性之间的冲突造成的。为了解决这个问题,我们提出了 LayerKV,这是一种简单而有效的插件方法,它能够有效地降低 TTFT,而无需额外的硬件或牺牲输出性能,同时与现有的并行策略和调度技术无缝集成。具体而言,LayerKV 引入了分层 KV 块分配、管理和卸载,以便对系统内存进行细粒度控制,并结合了 SLO 感知调度器来优化整体服务级别目标 (SLO)。对从 70 亿到 700 亿参数的代表性模型进行的综合评估(跨各种 GPU 配置)表明,LayerKV 将 TTFT 延迟提高了 11 倍,并将 SLO 违规率降低了 28.7%,从而显著提升了用户体验。