LLM2D
晶圆级LLM推断系统:WaferLLM
WaferLLM: A Wafer-Scale LLM Inference System
作者: Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04563v1

摘要

arXiv:2502.04563v1 公告类型:交叉 摘要:新兴的人工智能加速器越来越多地采用晶圆级制造技术,在基于网格的架构中集成了数十万个人工智能核心,并配备了大量分布式片上内存(总计数十GB)和超高的片上内存带宽(数十PB/s)。然而,当前针对如GPU这样的共享内存架构进行优化的大语言模型推理系统未能充分利用这些加速器。我们提出了WaferLLM,这是第一个晶圆级大语言模型推理系统。WaferLLM受到一种新颖的PLMR设备模型的指导,该模型捕捉了晶圆级架构的独特硬件特性。利用这一模型,WaferLLM 开创了晶圆级大语言模型并行计算,优化了数十万个人工智能核心的使用。它还引入了MeshGEMM和MeshGEMV,这是第一种能够在晶圆级加速器上有效扩展的GEMM和GEMV实现。评估结果显示,WaferLLM在晶圆级加速器利用方面优于最先进的系统200倍以上。在一款商用的晶圆级加速器上,WaferLLM相比先进GPU,在GEMV方面快了606倍,同时能耗低了22倍。对于大语言模型,WaferLLM能够实现39倍更快的解码,同时能耗效率提高了1.7倍。我们预计随着晶圆级人工智能模型、软件和硬件的继续成熟,这些数字将持续显著增长。