LLM2D
Prism: 解锁GPU共享以实现高效多大语言模型服务
Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving
作者: Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04021v1

摘要

arXiv:2505.04021v1 交叉类型: cross 摘要: 为大型语言模型 (LLMs) 提供服务费用高昂,尤其是对于托管多个模型的服务提供商而言,降低成本变得至关重要。为多个 LLM 提供服务的独特工作负载模式为这项任务带来了新的机会和挑战。模型的长尾流行度和长时间的空闲期为通过 GPU 共享提高利用率提供了机会。然而,现有的 GPU 共享系统缺乏在运行时调整其资源分配和共享策略的能力,使其在工作负载快速波动的情况下无法有效满足延迟服务级别目标 (SLO)。 这篇文章介绍了 Prism,一个能够充分发挥 GPU 共享潜力的多 LLM 服务系统,以实现成本效益和 SLO 达成。Prism 的核心部分解决了现有系统的关键局限性——缺乏跨模型内存协调,这种跨模型内存协调在动态工作负载下灵活共享 GPU 内存是必不可少的。Prism 通过两种关键设计实现了这一点。首先,它支持按需内存分配,通过动态将物理内存页映射到虚拟内存页,以灵活地在占用相同 GPU 的模型之间重分布内存。其次,它通过一个两层调度策略来提高内存效率,该策略能根据模型的运行时需求动态调整共享策略。实际轨迹评估结果显示,Prism 在成本节省和 SLO 达成方面分别比最先进的系统高出超过 2 倍和 3.3 倍。