摘要
arXiv:2505.09142v1 公告类型:交叉
摘要:我们提出了ELIS,一个大型语言模型(LLMs)的服务系统,该系统配备了一种迭代剩余时间最短优先(ISRTF)调度器,旨在高效管理剩余最少量的推理任务。当前的LLM服务系统通常采用先到先服务的调度策略,这可能导致“排队头阻塞”问题。为克服这一局限性,有必要预测LLM的推理时间,并应用最短任务优先调度策略。然而,由于LLMs的自回归特性,预测推理延迟颇具挑战性。ELIS通过使用BGE模型训练LLMs的响应长度预测器来应对这一挑战,BGE是一种基于编码器的先进模型。此外,我们还开发了ISRTF调度策略,这是对现有LLM迭代批处理的最短剩余时间优先的一种优化。为了在实际使用场景中评估我们的工作,我们根据实际用户的LLM服务跟踪记录模拟了请求流。同时,我们在Kubernetes上实现了ELIS作为云原生调度器系统,以评估其在生产环境中的性能。实验结果表明,ISRTF将平均任务完成时间减少了最多19.6%。