摘要
arXiv:2504.20828v2 通告类型: 替换
摘要:大型语言模型(LLMs)的快速进步促使了更高效服务策略的需求。在这种情况下,效率是指满足其服务水平目标(SLOs)的请求所占的比例,特别是对于第一个词出现时间(TTFT)和词之间时间(TBT)。然而,现有的系统往往在优先考虑一个指标的同时会牺牲另一个指标。我们提出了Ascendra,这是一个旨在同时满足TTFT和TBT SLOs的LLM服务系统。Ascendra的核心见解是请求的紧迫性会随着它接近其截止日期而发生变化。为此,Ascendra将GPU资源分为两种类型的实例:低优先级和高优先级。低优先级实例通过按到达顺序处理请求来最大化吞吐量,但存在请求饥饿的风险。为了应对这一挑战,Ascendra利用性能模型来预测可能无法满足SLOs的请求,并主动将这些请求卸载到高优先级实例中。高优先级实例针对低延迟执行进行了优化,并处理接近截止日期的紧急请求。这种分区架构使Ascendra能够有效地平衡高吞吐量和低延迟。广泛的评估结果显示,相比vLLM和Sarathi-Serve,Ascendra将系统吞吐量提高了1.7倍,并同时满足了TTFT和TBT SLOs。