LLM2D

摘要

arXiv:2504.09345v1 宣告类型: cross 摘要：混合专家（MoE）大语言模型（LLM），由于其稀疏的激活模式，提供了一种在避免成比例增加推理成本的同时扩展语言模型的方法。然而，它们庞大的参数大小在资源受限环境中构成了部署挑战，尤其是GPU内存容量有限的环境，因为GPU内存往往不足以容纳模型权重的完整集合。因此，典型的部署依赖于CPU-GPU混合执行：GPU处理计算密集型的矩阵乘法（GEMM）操作，而CPU处理相对较轻的注意力机制。这种设置引入了一个关键挑战：如何有效地优化CPU和GPU之间的资源利用率？此前的研究基于具有有限范围性能模型的系统优化，具体来说，这些模型没有捕捉到硬件属性与系统执行机制之间的复杂相互作用。因此，以前的方法既没有识别也没有达到硬件极限。本文提出了MoE-Lens，这是一种通过全面性能模型设计用于资源受限环境的大规模MoE LLM推理系统。我们的性能模型彻底分析了各种基本系统组件，包括CPU内存容量、GPU计算能力以及工作负载特性，以理解MoE推理的理论性能上限。此外，它捕捉系统执行机制以识别关键硬件瓶颈，并准确预测可实现的吞吐量。基于我们的性能模型，MoE-Lens引入了一个接近硬件极限的推理系统。在多种MoE模型和数据集上进行评估，MoE-Lens的平均性能比最先进的解决方案高4.6倍（最高达25.5倍），并且我们理论模型预测性能的准确率平均为94%。