LLM2D

摘要

arXiv:2504.11750v1 类型: cross 摘要:基于大型语言模型（LLM）的推理工作负载越来越多地支配着数据中心的成本和资源利用率。因此，理解在不断演变的CPU-GPU耦合架构上的推理工作负载特性对于优化至关重要。本文对松散耦合（PCIe A100/H100）和紧密耦合（GH200）系统上的LLM推理行为进行了深入分析。我们通过我们的新型探针SKIP和总内核启动时间和队列时间（TKLQT）等指标，利用细粒度的操作符到内核跟踪分析来分析性能动态。结果表明，紧密耦合（CC）GH200在大批量下显著优于松散耦合（LC）系统，对于Llama 3.2-1B模型实现了1.9倍至2.7倍更快的预填充延迟。然而，我们的分析还表明，GH200在批量大小比LC系统大4倍之前仍然受CPU限制。在这个扩展的CPU限制区域内，我们发现在低批量大小下GH200的推理延迟较高的一个重要因素是Grace CPU的性能特征。我们证明TKLQT能够准确识别这一CPU/GPU限制转换点。基于此分析，我们进一步展示了内核融合能够通过减少内核启动开销来显著缓解GH200在低批量延迟瓶颈方面的巨大潜力。这项详细的内核级表征为优化各种CPU-GPU耦合策略提供了关键见解。这项工作是初步研究，我们计划探索其他主要的AI/DL工作负载，这些工作负载对CPU-GPU异构架构的需求程度不同。