LLM2D
理解并优化多阶段AI推断流水线
Understanding and Optimizing Multi-Stage AI Inference Pipelines
作者: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.09775v3

摘要

arXiv:2504.09775v3 宣告类型: 替换-交叉 摘要:大型语言模型(LLMs)的迅速发展推动了日益复杂的推理管道和硬件平台的需求。现代LLM服务超出了传统的预填-解码工作流程,融入了多个阶段的过程,如检索增强生成(RAG)、键值(KV)缓存检索、动态模型路由和多步推理。这些阶段展示出多样的计算需求,需要集成了GPU、ASIC、CPU和基于内存的架构的分布式系统。然而,现有的模拟器缺乏模拟这些异构、多引擎工作流程的精度,限制了它们为架构决策提供信息的能力。 为了解决这一差距,我们引入了HERMES,这是一个异构多阶段LLM推理执行模拟器。HERMES 模拟多样化的请求阶段,包括RAG、KV检索、推理、预填和解码,跨越复杂的硬件层次结构。HERMES 支持异构客户端并发执行多个模型,不同于先前的框架,同时还包含先进的批处理策略和多级内存层次结构。通过将实际硬件追踪与分析建模相结合,HERMES 捕捉关键权衡,例如在混合CPU-加速器部署中的内存带宽争用、跨集群通信延迟和批处理效率。通过案例研究,我们探索了推理阶段对端到端延迟的影响、混合管道的最佳批处理策略,以及远程KV缓存检索的架构影响。HERMES 使系统设计师能够导航正在演变的LLM推理景观,并提供有关优化硬件-软件协同设计以适应下一代AI工作负载的操作性见解。