摘要
arXiv:2502.07115v1 公告类型: cross
摘要:大型语言模型(LLM)推理是指训练好的模型根据用户的提示,逐字生成文本的一个计算密集过程,要求高效的调度以优化延迟和资源利用率。在LLM推理中,管理键-值(KV)缓存是关键挑战之一,KV缓存可以减少冗余计算,但会引入内存约束。在这项工作中,我们理论上将带有KV缓存约束的LLM推理进行建模,并提出了新的批量和调度算法,以最小化推理延迟并有效管理KV缓存的内存。
我们分析了半在线和完全在线的调度模型,我们的结果包括三个方面。首先,在半在线提示到达模型中,我们提供了一个多项式时间算法,能在平均延迟方面实现精确最优性。其次,在具有随机提示到达的完全在线情况下,我们引入了一个高效的在线调度算法,具有常数后悔。第三,我们证明在完全在线的对抗性设置中,没有任何算法(确定性或随机性)能够达到常数竞争比。我们在一个公开的LLM推理数据集上使用Llama-70B模型和A100 GPU的实证评估显示,我们的方法在延迟和能源消耗方面显著优于当前实践中使用的基准算法。总体而言,我们的结果为更可持续和成本效益更高的LLM部署指明了道路。