摘要
arXiv:2504.11750v1 类型: cross
摘要:基于大型语言模型(LLM)的推理工作负载越来越多地支配着数据中心的成本和资源利用率。因此,理解在不断演变的CPU-GPU耦合架构上的推理工作负载特性对于优化至关重要。本文对松散耦合(PCIe A100/H100)和紧密耦合(GH200)系统上的LLM推理行为进行了深入分析。我们通过我们的新型探针SKIP和总内核启动时间和队列时间(TKLQT)等指标,利用细粒度的操作符到内核跟踪分析来分析性能动态。结果表明,紧密耦合(CC)GH200在大批量下显著优于松散耦合(LC)系统,对于Llama 3.2-1B模型实现了1.9倍至2.7倍更快的预填充延迟。然而,我们的分析还表明,GH200在批量大小比LC系统大4倍之前仍然受CPU限制。在这个扩展的CPU限制区域内,我们发现在低批量大小下GH200的推理延迟较高的一个重要因素是Grace CPU的性能特征。我们证明TKLQT能够准确识别这一CPU/GPU限制转换点。基于此分析,我们进一步展示了内核融合能够通过减少内核启动开销来显著缓解GH200在低批量延迟瓶颈方面的巨大潜力。这项详细的内核级表征为优化各种CPU-GPU耦合策略提供了关键见解。这项工作是初步研究,我们计划探索其他主要的AI/DL工作负载,这些工作负载对CPU-GPU异构架构的需求程度不同。