LLM2D

摘要

arXiv:2502.04563v2 Announce Type: replace-cross 摘要：新兴的AI加速器越来越多地采用晶圆级制造技术，在基于网格的架构中集成了数十万个AI核心，并配备了大的片上分布式内存（总计达数十GB）和超高的片上内存带宽（数十PB/s）。然而，当前针对共享内存架构（如GPU）优化的LLM推理系统未能充分利用这些加速器。我们提出了WaferLLM，这是第一个晶圆级LLM推理系统。WaferLLM受到一种新颖的PLMR模型（发音为“Plummer”）的指导，该模型捕捉了晶圆级架构的独特硬件特征。利用该模型，WaferLLM首先开拓了晶圆级LLM并行技术，优化了数十万个片上核心的使用。它还引入了MeshGEMM和MeshGEMV，这是第一种针对晶圆级加速器有效扩展的GEMM和GEMV实现。评估结果显示，WaferLLM在晶圆级加速器上的利用率比现有系统高出200倍。在一种商用晶圆级加速器上，WaferLLM的GEMV比先进GPU快606倍，且能耗效率高22倍。对于基于16位数据类型的LLM，WaferLLM在Llama3-8B模型上实现2700 tok/sec/req的解码速度，在Qwen2-72B模型上实现840 tok/sec/req的解码速度，从而使解码速度提高了39倍，能耗效率提高了1.7倍。我们预计随着晶圆级AI模型、软件和硬件的不断成熟，这些数字将会显著增长。