摘要
arXiv:2504.09345v1 宣告类型: cross
摘要:混合专家(MoE)大语言模型(LLM),由于其稀疏的激活模式,提供了一种在避免成比例增加推理成本的同时扩展语言模型的方法。然而,它们庞大的参数大小在资源受限环境中构成了部署挑战,尤其是GPU内存容量有限的环境,因为GPU内存往往不足以容纳模型权重的完整集合。因此,典型的部署依赖于CPU-GPU混合执行:GPU处理计算密集型的矩阵乘法(GEMM)操作,而CPU处理相对较轻的注意力机制。这种设置引入了一个关键挑战:如何有效地优化CPU和GPU之间的资源利用率?此前的研究基于具有有限范围性能模型的系统优化,具体来说,这些模型没有捕捉到硬件属性与系统执行机制之间的复杂相互作用。因此,以前的方法既没有识别也没有达到硬件极限。
本文提出了MoE-Lens,这是一种通过全面性能模型设计用于资源受限环境的大规模MoE LLM推理系统。我们的性能模型彻底分析了各种基本系统组件,包括CPU内存容量、GPU计算能力以及工作负载特性,以理解MoE推理的理论性能上限。此外,它捕捉系统执行机制以识别关键硬件瓶颈,并准确预测可实现的吞吐量。基于我们的性能模型,MoE-Lens引入了一个接近硬件极限的推理系统。在多种MoE模型和数据集上进行评估,MoE-Lens的平均性能比最先进的解决方案高4.6倍(最高达25.5倍),并且我们理论模型预测性能的准确率平均为94%。