摘要
arXiv:2504.09775v1 Announce Type: cross
摘要:大型语言模型(LLMs)的快速进化推动了对日益复杂的推理流水线和硬件平台的需求。现代LLM服务超越了传统的填充-解码工作流,整合了多阶段过程,如检索增强生成(RAG)、键值(KV)缓存检索、动态模型路由和多步推理。这些阶段表现出多样化的计算需求,需要结合GPU、ASIC、CPU和运算为中心的体系结构的分布式系统。然而,现有的模拟器在建模这些异构、多引擎工作流方面缺乏准确性,限制了它们为架构决策提供信息的能力。
为解决这一缺口,我们引入了HERMES,一个异构多阶段LLM推理执行模拟器。HERMES模拟多种请求阶段,包括RAG、KV检索、推理、填充和解码,跨越复杂的硬件层次结构。HERMES支持异构客户端并发执行多个模型,并结合了高级批处理策略和多层次内存层次结构。通过将实际硬件跟踪与分析模型相结合,HERMES捕捉到了在混合CPU加速器部署中至关重要的权衡,如内存带宽竞争、跨集群通信延迟和批处理效率。通过案例研究,我们探讨了推理阶段对端到端延迟的影响、混合管道中的最优批处理策略以及远程KV缓存检索的架构影响。HERMES使系统设计师能够导航不断变化的LLM推理领域,为下一代AI工作负载的硬件-软件协同设计提供切实可行的洞察。