LLM2D

摘要

arXiv:2504.09775v3 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）的迅速发展推动了日益复杂的推理管道和硬件平台的需求。现代LLM服务超出了传统的预填-解码工作流程，融入了多个阶段的过程，如检索增强生成（RAG）、键值（KV）缓存检索、动态模型路由和多步推理。这些阶段展示出多样的计算需求，需要集成了GPU、ASIC、CPU和基于内存的架构的分布式系统。然而，现有的模拟器缺乏模拟这些异构、多引擎工作流程的精度，限制了它们为架构决策提供信息的能力。为了解决这一差距，我们引入了HERMES，这是一个异构多阶段LLM推理执行模拟器。HERMES 模拟多样化的请求阶段，包括RAG、KV检索、推理、预填和解码，跨越复杂的硬件层次结构。HERMES 支持异构客户端并发执行多个模型，不同于先前的框架，同时还包含先进的批处理策略和多级内存层次结构。通过将实际硬件追踪与分析建模相结合，HERMES 捕捉关键权衡，例如在混合CPU-加速器部署中的内存带宽争用、跨集群通信延迟和批处理效率。通过案例研究，我们探索了推理阶段对端到端延迟的影响、混合管道的最佳批处理策略，以及远程KV缓存检索的架构影响。HERMES 使系统设计师能够导航正在演变的LLM推理景观，并提供有关优化硬件-软件协同设计以适应下一代AI工作负载的操作性见解。