LLM2D
高效的混合实时和尽力而为请求的大型语言模型服务
Efficient LLM Serving on Hybrid Real-time and Best-effort Requests
作者: Wan Borui, Zhao Juntao, Jiang Chenyu, Guo Chuanxiong, Wu Chuan
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09590v1

摘要

arXiv:2504.09590v1 公告类型: 新颖 摘要: 近期大规模语言模型(LLMs)的突破使得在单个模型上实现各种生成任务成为可能。由LLM支持的现实服务(例如,OpenAI的ChatGPT [27])通常同时为交互应用程序(例如,问答系统,称为实时或RT请求)提供临界延迟请求,以及为后台处理提供吞吐量导向的请求(例如,文件批量处理 [28],称为尽力服务或BE请求),对此底层模型产生了复杂混合推理工作负载。当前最先进的(SOTA)LLM服务系统为每种类型的请求分配专用机器,分别追求低推理延迟或高服务吞吐量。这种做法简化了请求调度和管理,但也导致资源利用率低下。我们提出了一种名为BROS的混合LLM服务系统,旨在将RT/BE请求集中在一起,同时满足RT请求的延迟要求并保持BE请求的吞吐量。BROS形式化了混合RT/BE请求调度的问题,并用基于动态优先级的算法解决了这个问题。BROS设计了一种双向的键值缓存管理机制,允许RT请求与BE请求共享键值内存,以消除因内存不足引起的调度限制,从而提高利用率。广泛的实验验证了,BROS在提供混合RT和BE请求服务时实现了良好的权衡。它将RT请求的延迟显著降低了74.20%,提高了它们的细粒度服务水平目标(SLOs)实现(最多36.38倍),且对BE请求的吞吐量几乎没有影响,显示出相对于vLLM和TGI等SOTA系统的优势。