摘要
arXiv:2406.01698v3 宣布类型: 重新交叉提交
摘要: 大型语言模型(LLMs)在各种应用中表现出色,常常超越人类专家。然而,为了高效地部署这些庞大的模型以满足多样化的推理使用案例,需要精心设计的硬件平台,配备充足的计算、内存和网络资源。随着对LLM服务优化的不断创新和模型架构的发展速度令人难以置信,满足服务级别目标(SLOs)所需的硬件要求仍然是一个待解决的研究问题。
为回答这一问题,我们介绍了一个分析工具GenZ,该工具可以高效地探索不同的LLM模型架构(稠密型、GQA型、MoE型、Mamba型)、LLM服务优化(分块、推测性解码、量化)以及AI平台设计参数之间的关系。我们的工具可以为给定的场景估算LLM推理性能指标。我们已经通过在各种不同的实际硬件平台上运行各种不同的LLM模型进行了验证,最大几何平均误差为5.82。我们使用GenZ来确定在各种不同的LLM推理使用案例中所需的计算能力、内存容量、内存带宽、网络延迟和网络带宽需求。我们还研究了当今使用的各种架构选择(受到几家供应商的LLM服务平台的启发),以帮助指导高级计算机架构师设计下一代AI硬件加速器和平台。从GenZ中获得的趋势和见解可以指导部署LLM的AI工程师以及设计下一代硬件加速器和平台的计算机架构师。最终,这项工作揭示了在一系列应用中充分发挥大型语言模型潜力所需的平台设计考虑因素。源代码可通过https://github.com/abhibambhaniya/GenZ-LLM-Analyzer 获取。用户也可以通过网络浏览器直接尝试https://genz-llm-analyzer.streamlit.app/,无需进行任何设置。