LLM2D
尼 Yamada : 打破大语言模型推理服务的孤岛
Niyama : Breaking the Silos of LLM Inference Serving
作者: Kanishk Goel, Jayashree Mohan, Nipun Kwatra, Ravi Shreyas Anupindi, Ramachandran Ramjee
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22562v1

摘要

arXiv:2503.22562v1 通知类型:交叉 摘要:大规模语言模型(LLMs)的广泛应用使得各种具有不同延迟需求的应用成为可能。现有的LLM服务框架依赖于隔离的基础设施和粗粒度的工作负载隔离——交互式和批处理,导致资源利用率低效和对细粒度的服务质量(QoS)差异支持有限。这导致了操作效率低下、过度配置以及在流量激增期间的糟糕负载管理。 我们提出了Niyama,这是一种新的以QoS为导向的推理服务系统,能够高效地在共享基础设施上协同调度多种工作负载。Niyama引入了细粒度的QoS分类,允许应用程序指定精确的延迟要求,并根据实时系统状态动态调整调度决策。利用LLM推理可预测的执行特征,Niyama实现了动态切分机制,以提高整体吞吐量同时严格维持QoS保证。此外,Niyama采用了一种混合优先级政策来平衡公平性和效率,并采用选择性请求降级策略,在超载情况下提供优雅的服务降级。我们的评估表明,与当前隔离部署相比,Niyama将服务容量提高了32%的同时保持了QoS保证。值得注意的是,在极端负载条件下,我们的系统将SLO违规数量减少了数量级。