LLM2D
理解并优化多阶段AI推理管道
Understanding and Optimizing Multi-Stage AI Inference Pipelines
作者: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.09775v2

摘要

arXiv:2504.09775v2 类型: replace-cross 摘要:大规模语言模型(LLMs)的快速进化推动了日益复杂的推理管道和硬件平台的需求。现代LLM服务不仅超越了传统的预填充解码工作流,还整合了多阶段过程,如检索增强生成(RAG)、键值(KV)缓存检索、动态模型路由和多步骤推理。这些阶段具有不同的计算需求,需要结合GPU、ASIC、CPU和内存中心架构的分布式系统。然而,现有的模拟器缺乏建模这些异构多引擎工作流的准确性,限制了它们对架构决策的指导能力。 为了填补这一缺口,我们引入了HERMES,这是一种异构多阶段LLM推理执行模拟器。HERMES能够模拟多样化的请求阶段,包括RAG、KV检索、推理、预填充和解码,跨复杂硬件层次结构进行建模。HERMES支持异构客户端并发执行多个模型,这是先前框架所不具备的,同时还集成高级批处理策略和多级内存层次结构。通过将实际硬件跟踪与分析建模相结合,HERMES捕捉到混合CPU加速部署中的关键权衡,如内存带宽争用、跨集群通信延迟和批处理效率。通过案例研究,我们探讨了推理阶段对端到端延迟的影响、混合管道的最佳批处理策略以及远程KV缓存检索的架构影响。HERMES使系统设计师能够应对LLM推理不断变化的景观,提供有关优化硬件软件协同设计以适应下一代AI负载的可操作见解。