LLM2D

摘要

arXiv:2504.09590v1 公告类型: 新颖摘要: 近期大规模语言模型（LLMs）的突破使得在单个模型上实现各种生成任务成为可能。由LLM支持的现实服务（例如，OpenAI的ChatGPT [27]）通常同时为交互应用程序（例如，问答系统，称为实时或RT请求）提供临界延迟请求，以及为后台处理提供吞吐量导向的请求（例如，文件批量处理 [28]，称为尽力服务或BE请求），对此底层模型产生了复杂混合推理工作负载。当前最先进的（SOTA）LLM服务系统为每种类型的请求分配专用机器，分别追求低推理延迟或高服务吞吐量。这种做法简化了请求调度和管理，但也导致资源利用率低下。我们提出了一种名为BROS的混合LLM服务系统，旨在将RT/BE请求集中在一起，同时满足RT请求的延迟要求并保持BE请求的吞吐量。BROS形式化了混合RT/BE请求调度的问题，并用基于动态优先级的算法解决了这个问题。BROS设计了一种双向的键值缓存管理机制，允许RT请求与BE请求共享键值内存，以消除因内存不足引起的调度限制，从而提高利用率。广泛的实验验证了，BROS在提供混合RT和BE请求服务时实现了良好的权衡。它将RT请求的延迟显著降低了74.20%，提高了它们的细粒度服务水平目标（SLOs）实现（最多36.38倍），且对BE请求的吞吐量几乎没有影响，显示出相对于vLLM和TGI等SOTA系统的优势。