LLM2D

摘要

大型语言模型 (LLM) 扩展的上下文窗口在各种应用中极大地增强了其能力，但也带来了在保持低延迟方面，尤其是首个标记时间 (TTFT) 方面的重大挑战。本文发现，随着上下文长度的增加，TTFT 的急剧上升主要由排队延迟驱动，而排队延迟是由对 GPU 键值 (KV) 缓存分配不断增长的需求与有限的 KV 缓存块可用性之间的冲突造成的。为了解决这个问题，我们提出了 LayerKV，这是一种简单但有效的插件方法，它可以有效地降低 TTFT，而无需额外的硬件或损害输出性能，同时与现有的并行策略和调度技术无缝集成。具体来说，LayerKV 引入了分层 KV 块分配、管理和卸载，以对系统内存进行细粒度控制，并结合了 SLO 感知调度程序来优化整体服务级别目标 (SLO)。对从 70 亿到 700 亿参数的代表性模型进行了全面评估，涵盖了各种 GPU 配置，结果表明 LayerKV 将 TTFT 延迟提高了高达 69 倍，并将 SLO 违规率降低了 28.7%，从而极大地改善了用户体验。