LLM2D

摘要

arXiv:2504.09775v1 Announce Type: cross 摘要：大型语言模型（LLMs）的快速进化推动了对日益复杂的推理流水线和硬件平台的需求。现代LLM服务超越了传统的填充-解码工作流，整合了多阶段过程，如检索增强生成（RAG）、键值（KV）缓存检索、动态模型路由和多步推理。这些阶段表现出多样化的计算需求，需要结合GPU、ASIC、CPU和运算为中心的体系结构的分布式系统。然而，现有的模拟器在建模这些异构、多引擎工作流方面缺乏准确性，限制了它们为架构决策提供信息的能力。为解决这一缺口，我们引入了HERMES，一个异构多阶段LLM推理执行模拟器。HERMES模拟多种请求阶段，包括RAG、KV检索、推理、填充和解码，跨越复杂的硬件层次结构。HERMES支持异构客户端并发执行多个模型，并结合了高级批处理策略和多层次内存层次结构。通过将实际硬件跟踪与分析模型相结合，HERMES捕捉到了在混合CPU加速器部署中至关重要的权衡，如内存带宽竞争、跨集群通信延迟和批处理效率。通过案例研究，我们探讨了推理阶段对端到端延迟的影响、混合管道中的最优批处理策略以及远程KV缓存检索的架构影响。HERMES使系统设计师能够导航不断变化的LLM推理领域，为下一代AI工作负载的硬件-软件协同设计提供切实可行的洞察。