LLM2D
优化大语言模型推理:基于流体引导的在线调度与内存约束
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints
作者: Ruicheng Ao, Gan Luo, David Simchi-Levi, Xinshang Wang
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11320v1

摘要

arXiv:2504.11320v1 宣告类型:交叉 摘要:大型语言模型(LLMs)在当今的应用中至关重要,但它们的推理过程——通过分段处理文本并使用内存密集的键-值(KV)缓存生成响应——在内存受限的情况下需要大量的计算资源。本文将LLM推理优化表述为一个多阶段在线调度问题,其中顺序提示的到达和KV缓存的增长使得传统的调度方法无效。我们开发了一种流体动力学近似方法,以提供一个可解决的基准来指导算法设计。在此基础上,我们提出了等待积累推理阈值(WAIT)算法,该算法使用多个阈值来在输出长度已知的情况下优化地调度到来的提示,并将其扩展到用于输出长度未知情况的嵌套WAIT算法。理论分析表明,在高流量条件下,这两种算法都能接近流体基准性能,在吞吐量、延迟和首个标记时间(TTFT)之间取得平衡。使用Llama-7B模型在A100 GPU上进行的实验,使用合成和实际数据集证明,与vLLM和Sarathi等现有baseline相比,吞吐量有所提高,延迟有所减少。本项工作将运筹学与机器学习相结合,提供了一种在内存受限条件下有效部署LLM的严谨框架。