摘要
arXiv:2502.07115v2 通知类型: replace-cross
摘要:大型语言模型(LLM)推理是指训练好的模型在接收到用户提示后逐字生成文本的过程,这是一个计算密集型的过程,需要高效的调度来优化延迟和资源利用率。LLM推理中的关键挑战是在K-V缓存管理方面,K-V缓存减少了冗余计算但带来了内存限制。在本文中,我们从理论上对K-V缓存约束下的LLM推理进行了建模,并提出了新颖的分批和调度算法,以最小化推理延迟同时有效管理K-V缓存的内存。
我们分析了半在线和完全在线调度模型,并且我们的结果分为三个方面。首先,我们提供了一个多项式时间算法,在半在线提示到达模型中实现了平均延迟的精确最优。其次,在具有随机提示到达的完全在线情况下,我们引入了一个高效的一站式调度算法,具有常数后悔。第三,我们证明在完全在线对抗环境中,没有任何算法(确定性或随机性)能实现恒定的竞争比。我们在公共LLM推理数据集上的实证评估使用了A100 GPU上的Llama-70B模型,结果显示我们的方法在降低延迟和减少能耗方面显著优于当前实践中使用的基准算法。总体而言,我们的结果提供了一条通往更可持续和成本效益更高的LLM部署的途径。