LLM2D

摘要

arXiv:2504.09775v2 类型: replace-cross 摘要：大规模语言模型（LLMs）的快速进化推动了日益复杂的推理管道和硬件平台的需求。现代LLM服务不仅超越了传统的预填充解码工作流，还整合了多阶段过程，如检索增强生成（RAG）、键值（KV）缓存检索、动态模型路由和多步骤推理。这些阶段具有不同的计算需求，需要结合GPU、ASIC、CPU和内存中心架构的分布式系统。然而，现有的模拟器缺乏建模这些异构多引擎工作流的准确性，限制了它们对架构决策的指导能力。为了填补这一缺口，我们引入了HERMES，这是一种异构多阶段LLM推理执行模拟器。HERMES能够模拟多样化的请求阶段，包括RAG、KV检索、推理、预填充和解码，跨复杂硬件层次结构进行建模。HERMES支持异构客户端并发执行多个模型，这是先前框架所不具备的，同时还集成高级批处理策略和多级内存层次结构。通过将实际硬件跟踪与分析建模相结合，HERMES捕捉到混合CPU加速部署中的关键权衡，如内存带宽争用、跨集群通信延迟和批处理效率。通过案例研究，我们探讨了推理阶段对端到端延迟的影响、混合管道的最佳批处理策略以及远程KV缓存检索的架构影响。HERMES使系统设计师能够应对LLM推理不断变化的景观，提供有关优化硬件软件协同设计以适应下一代AI负载的可操作见解。