LLM2D

摘要

arXiv:2504.20828v2 通告类型: 替换摘要：大型语言模型（LLMs）的快速进步促使了更高效服务策略的需求。在这种情况下，效率是指满足其服务水平目标（SLOs）的请求所占的比例，特别是对于第一个词出现时间（TTFT）和词之间时间（TBT）。然而，现有的系统往往在优先考虑一个指标的同时会牺牲另一个指标。我们提出了Ascendra，这是一个旨在同时满足TTFT和TBT SLOs的LLM服务系统。Ascendra的核心见解是请求的紧迫性会随着它接近其截止日期而发生变化。为此，Ascendra将GPU资源分为两种类型的实例：低优先级和高优先级。低优先级实例通过按到达顺序处理请求来最大化吞吐量，但存在请求饥饿的风险。为了应对这一挑战，Ascendra利用性能模型来预测可能无法满足SLOs的请求，并主动将这些请求卸载到高优先级实例中。高优先级实例针对低延迟执行进行了优化，并处理接近截止日期的紧急请求。这种分区架构使Ascendra能够有效地平衡高吞吐量和低延迟。广泛的评估结果显示，相比vLLM和Sarathi-Serve，Ascendra将系统吞吐量提高了1.7倍，并同时满足了TTFT和TBT SLOs。