LLM2D

摘要

大型语言模型（LLM）不断扩展的上下文窗口极大地增强了其在各种应用中的能力，但也带来了维持低延迟的重大挑战，尤其是在首个词元生成时间（TTFT）方面。本文发现，随着上下文长度的增加，TTFT 的急剧上升主要由排队延迟驱动，这是由于对 GPU 键值 (KV) 缓存分配的需求不断增长与 KV 缓存块的有限可用性之间发生冲突造成的。为了解决这个问题，我们提出了 LayerKV，这是一种简单而有效的插件方法，它可以在不增加额外硬件或影响输出性能的情况下有效地减少 TTFT，同时与现有的并行策略和调度技术无缝集成。具体来说，LayerKV 引入了分层 KV 块分配、管理和卸载，以对系统内存进行细粒度控制，并结合了面向 SLO 的调度器来优化整体服务水平目标 (SLO)。对从 70 亿到 700 亿参数的代表性模型在各种 GPU 配置上的综合评估表明，LayerKV 将 TTFT 延迟提高了高达 69 倍，并将 SLO 违规率降低了 28.7%，从而显著增强了用户体验。