摘要
arXiv:2504.03775v1 Announce Type: cross
摘要:分散推理已成为一种关键框架,通过将大规模语言模型推理中的预填充(P)阶段和解码(D)阶段分离,以提高吞吐量。然而,预填充节点和解码节点之间 KV 缓存传输面临着显著的延迟。块级调用方法和不连续的 KV 缓存内存分配增加了传输内核的调用次数。此外,现有的框架往往固定了 P 和 D 节点的角色,导致计算不平衡。本文提出了 FlowKV,这是一种新的分散推理框架,通过优化 KV 缓存传输,将平均传输延迟降低了 96%,从 0.944s 降至 0.053s,几乎完全消除了与总请求延迟相比的传输时间。FlowKV 引入了负载感知调度器,实现了平衡的请求调度和灵活的 PD 节点分配。这种设计最大限度地利用了硬件资源,即使在正常、计算不平衡和极端过载条件下也实现了系统的峰值吞吐量。实验结果表明,与基线相比,FlowKV 在 LongBench 数据集上将推理加速了 15.2%-48.9%,并支持异构 GPU 应用。