摘要
arXiv:2504.20828v1 宣布类型: 新
摘要:大规模语言模型(LLMs)的迅速发展推动了更高效服务策略的需求。在此背景下,效率指的是满足其服务水平目标(SLOs)的请求的比例,特别是对于首个令牌时间(Time To First Token,TTFT)和令牌时间间隔(Time Between Tokens,TBT)。然而,现有的系统通常会以牺牲一项指标为代价来优先考虑另一项指标。我们提出了Ascendra,这是一种设计用于同时满足TTFT和TBT SLOs的大规模语言模型服务系统。Ascendra背后的核心见解是,请求的紧迫性会随着接近其截止日期而演变。为利用这一点,Ascendra将GPU资源划分为两类实例:低优先级和高优先级。低优先级实例通过按到达顺序处理请求来最大化吞吐量,但存在请求饿死的风险。为了解决这一问题,Ascendra采用了一种性能模型来预测可能无法满足SLOs的请求,并主动将这些请求卸载到高优先级实例中。高优先级实例则优化了低延迟执行,并处理接近其截止日期的紧急请求。这种分区架构使Ascendra能够有效地平衡高吞吐量和低延迟。广泛的评估显示,与vLLM和Sarathi-Serve相比,Ascendra不仅提高了系统吞吐量最多1.7倍,还能同时满足TTFT和TBT的SLOs。