LLM2D

摘要

arXiv:2504.03775v1 Announce Type: cross 摘要：分散推理已成为一种关键框架，通过将大规模语言模型推理中的预填充（P）阶段和解码（D）阶段分离，以提高吞吐量。然而，预填充节点和解码节点之间 KV 缓存传输面临着显著的延迟。块级调用方法和不连续的 KV 缓存内存分配增加了传输内核的调用次数。此外，现有的框架往往固定了 P 和 D 节点的角色，导致计算不平衡。本文提出了 FlowKV，这是一种新的分散推理框架，通过优化 KV 缓存传输，将平均传输延迟降低了 96%，从 0.944s 降至 0.053s，几乎完全消除了与总请求延迟相比的传输时间。FlowKV 引入了负载感知调度器，实现了平衡的请求调度和灵活的 PD 节点分配。这种设计最大限度地利用了硬件资源，即使在正常、计算不平衡和极端过载条件下也实现了系统的峰值吞吐量。实验结果表明，与基线相比，FlowKV 在 LongBench 数据集上将推理加速了 15.2%-48.9%，并支持异构 GPU 应用。