LLM2D
晶圆级LLM推理系统:WaferLLM
WaferLLM: A Wafer-Scale LLM Inference System
作者: Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.04563v2

摘要

arXiv:2502.04563v2 Announce Type: replace-cross 摘要:新兴的AI加速器越来越多地采用晶圆级制造技术,在基于网格的架构中集成了数十万个AI核心,并配备了大的片上分布式内存(总计达数十GB)和超高的片上内存带宽(数十PB/s)。然而,当前针对共享内存架构(如GPU)优化的LLM推理系统未能充分利用这些加速器。 我们提出了WaferLLM,这是第一个晶圆级LLM推理系统。WaferLLM受到一种新颖的PLMR模型(发音为“Plummer”)的指导,该模型捕捉了晶圆级架构的独特硬件特征。利用该模型,WaferLLM首先开拓了晶圆级LLM并行技术,优化了数十万个片上核心的使用。它还引入了MeshGEMM和MeshGEMV,这是第一种针对晶圆级加速器有效扩展的GEMM和GEMV实现。 评估结果显示,WaferLLM在晶圆级加速器上的利用率比现有系统高出200倍。在一种商用晶圆级加速器上,WaferLLM的GEMV比先进GPU快606倍,且能耗效率高22倍。对于基于16位数据类型的LLM,WaferLLM在Llama3-8B模型上实现2700 tok/sec/req的解码速度,在Qwen2-72B模型上实现840 tok/sec/req的解码速度,从而使解码速度提高了39倍,能耗效率提高了1.7倍。我们预计随着晶圆级AI模型、软件和硬件的不断成熟,这些数字将会显著增长。