LLM2D

摘要

arXiv:2504.20828v1 宣布类型: 新摘要：大规模语言模型（LLMs）的迅速发展推动了更高效服务策略的需求。在此背景下，效率指的是满足其服务水平目标（SLOs）的请求的比例，特别是对于首个令牌时间（Time To First Token，TTFT）和令牌时间间隔（Time Between Tokens，TBT）。然而，现有的系统通常会以牺牲一项指标为代价来优先考虑另一项指标。我们提出了Ascendra，这是一种设计用于同时满足TTFT和TBT SLOs的大规模语言模型服务系统。Ascendra背后的核心见解是，请求的紧迫性会随着接近其截止日期而演变。为利用这一点，Ascendra将GPU资源划分为两类实例：低优先级和高优先级。低优先级实例通过按到达顺序处理请求来最大化吞吐量，但存在请求饿死的风险。为了解决这一问题，Ascendra采用了一种性能模型来预测可能无法满足SLOs的请求，并主动将这些请求卸载到高优先级实例中。高优先级实例则优化了低延迟执行，并处理接近其截止日期的紧急请求。这种分区架构使Ascendra能够有效地平衡高吞吐量和低延迟。广泛的评估显示，与vLLM和Sarathi-Serve相比，Ascendra不仅提高了系统吞吐量最多1.7倍，还能同时满足TTFT和TBT的SLOs。