LLM2D

摘要

arXiv:2505.09142v1 公告类型：交叉摘要：我们提出了ELIS，一个大型语言模型（LLMs）的服务系统，该系统配备了一种迭代剩余时间最短优先（ISRTF）调度器，旨在高效管理剩余最少量的推理任务。当前的LLM服务系统通常采用先到先服务的调度策略，这可能导致“排队头阻塞”问题。为克服这一局限性，有必要预测LLM的推理时间，并应用最短任务优先调度策略。然而，由于LLMs的自回归特性，预测推理延迟颇具挑战性。ELIS通过使用BGE模型训练LLMs的响应长度预测器来应对这一挑战，BGE是一种基于编码器的先进模型。此外，我们还开发了ISRTF调度策略，这是对现有LLM迭代批处理的最短剩余时间优先的一种优化。为了在实际使用场景中评估我们的工作，我们根据实际用户的LLM服务跟踪记录模拟了请求流。同时，我们在Kubernetes上实现了ELIS作为云原生调度器系统，以评估其在生产环境中的性能。实验结果表明，ISRTF将平均任务完成时间减少了最多19.6%。