LLM2D
解析下一代大语言模型分布式推理的AI平台设计
Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models
作者: Abhimanyu Bambhaniya, Ritik Raj, Geonhwa Jeong, Souvik Kundu, Sudarshan Srinivasan, Suvinay Subramanian, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2406.01698v2

摘要

arXiv:2406.01698v2 宣布类型: 替换-交叉 摘要:大规模语言模型(LLMs)在广泛的应用中展现出了显著的性能,经常超越人类专家。然而,为了有效地为多样的推理应用场景部署这些庞大的模型,需要精心设计的硬件平台,具有充足的计算、内存和网络资源。随着LLM服务优化的不断创新和模型架构以令人难以置信的速度发展,满足服务等级目标(SLOs)所需的硬件要求仍然是一个开放的研究问题。 为了回答这个问题,我们介绍了一种分析工具GenZ,用于高效地导航不同类型的LLM模型架构(密集型、GQA、Moe、Mamba)、LLM服务优化(切片、推测解码、量化)和AI平台设计参数之间的关系。该工具针对给定的场景估计LLM推理性能指标。我们通过在各种不同的硬件平台上运行不同的LLM模型进行验证,最大几何平均误差为5.82。我们使用GenZ来识别在不同LLM推理应用场景下的计算能力、内存容量、内存带宽、网络延迟和网络带宽需求。我们还研究了当今使用的各种不同架构选择(受到来自多个供应商的LLM服务平台的启发),以帮助指导设计下一代AI硬件加速器和平台的计算机架构师。从GenZ得出的趋势和见解可以指导部署LLM的AI工程师以及设计下一代硬件加速器和平台的计算机架构师。最终,这项工作揭示了在一系列应用中充分发挥大规模语言模型潜力所需的平台设计考虑因素。源代码可在 https://github.com/abhibambhaniya/GenZ-LLM-Analyzer 提供。用户也可以在 https://genz-llm-analyzer.streamlit.app/ 在浏览器中无需任何设置进行尝试。