LLM2D

摘要

arXiv:2503.22562v1 通知类型：交叉摘要：大规模语言模型（LLMs）的广泛应用使得各种具有不同延迟需求的应用成为可能。现有的LLM服务框架依赖于隔离的基础设施和粗粒度的工作负载隔离——交互式和批处理，导致资源利用率低效和对细粒度的服务质量（QoS）差异支持有限。这导致了操作效率低下、过度配置以及在流量激增期间的糟糕负载管理。我们提出了Niyama，这是一种新的以QoS为导向的推理服务系统，能够高效地在共享基础设施上协同调度多种工作负载。Niyama引入了细粒度的QoS分类，允许应用程序指定精确的延迟要求，并根据实时系统状态动态调整调度决策。利用LLM推理可预测的执行特征，Niyama实现了动态切分机制，以提高整体吞吐量同时严格维持QoS保证。此外，Niyama采用了一种混合优先级政策来平衡公平性和效率，并采用选择性请求降级策略，在超载情况下提供优雅的服务降级。我们的评估表明，与当前隔离部署相比，Niyama将服务容量提高了32%的同时保持了QoS保证。值得注意的是，在极端负载条件下，我们的系统将SLO违规数量减少了数量级。