摘要
arXiv:2505.04021v1 交叉类型: cross
摘要: 为大型语言模型 (LLMs) 提供服务费用高昂,尤其是对于托管多个模型的服务提供商而言,降低成本变得至关重要。为多个 LLM 提供服务的独特工作负载模式为这项任务带来了新的机会和挑战。模型的长尾流行度和长时间的空闲期为通过 GPU 共享提高利用率提供了机会。然而,现有的 GPU 共享系统缺乏在运行时调整其资源分配和共享策略的能力,使其在工作负载快速波动的情况下无法有效满足延迟服务级别目标 (SLO)。
这篇文章介绍了 Prism,一个能够充分发挥 GPU 共享潜力的多 LLM 服务系统,以实现成本效益和 SLO 达成。Prism 的核心部分解决了现有系统的关键局限性——缺乏跨模型内存协调,这种跨模型内存协调在动态工作负载下灵活共享 GPU 内存是必不可少的。Prism 通过两种关键设计实现了这一点。首先,它支持按需内存分配,通过动态将物理内存页映射到虚拟内存页,以灵活地在占用相同 GPU 的模型之间重分布内存。其次,它通过一个两层调度策略来提高内存效率,该策略能根据模型的运行时需求动态调整共享策略。实际轨迹评估结果显示,Prism 在成本节省和 SLO 达成方面分别比最先进的系统高出超过 2 倍和 3.3 倍。