摘要
arXiv:2505.04021v2 服务类型:替换交叉
摘要: 提供大型语言模型(LLMs)是昂贵的,尤其是对于托管许多模型的服务提供商而言,因此降低成本变得至关重要。为多个LLM提供服务的独特工作负载模式为这项任务带来了新的机会和挑战。模型的长尾 popularity 和其长时间的空闲期为通过 GPU 共享提高利用效率提供了机会。然而,现有的 GPU 共享系统缺乏在运行时调整其资源分配和共享策略的能力,使得它们在工作负载迅速波动的情况下无法有效满足延迟服务水平目标(SLO)。
本文介绍了 Prism,这是一种能够释放 GPU 共享全部潜力的多 LLM 服务系统,从而实现成本效率和 SLO 达成的双重目标。Prism 的核心在于解决现有系统的关键局限性——缺乏跨模型内存协调,这对于在动态工作负载下灵活地在模型之间共享 GPU 内存至关重要。Prism 通过两种关键设计实现了这一点。首先,它支持按需内存分配,通过动态映射物理到虚拟内存页面,允许在空间和时间共享 GPU 的模型之间灵活地重新分配内存。其次,它通过两级调度策略提高了内存效率,该策略根据模型的运行时需求动态调整共享策略。真实世界的追踪评估显示,Prism 在成本节约和 SLO 达成方面分别比最先进的系统表现出超过 2 倍和 3.3 倍的性能。