LLM2D
fMoE:大规模混合专家模型中细粒度的专家卸载
fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving
作者: Hanfei Yu, Xingqi Cui, Hong Zhang, Hao Wang, Hao Wang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05370v1

摘要

arXiv:2502.05370v1 类型:交叉 摘要:大规模语言模型(LLMs)在内容生成、搜索和推荐以及AI辅助操作等各种应用中取得了巨大的成功。为了降低训练成本,专家混排(MoE)架构已成为现代LLMs的一个流行基础结构。然而,尽管存在这些优点,基于MoE的LLMs在提供服务时由于专家稀疏激活而导致严重的内存效率低下。最近的研究提出了将未激活的专家从GPU内存卸载到CPU内存,以提高MoE模型提供的服务效率。然而,由于粗粒度的设计,它们要么引入了高推理延迟,要么引入了高模型内存占用。为了在MoE提供服务中平衡延迟和内存之间的trade-off,我们提出了fMoE,这是一个细粒度专家卸载系统,能够实现低推理延迟和内存效率。我们设计fMoE从MoE模型中提取细粒度的专家选择模式,以及从输入提示中提取语义提示,以有效地指导专家预取、缓存和卸载决策。fMoE基于HuggingFace Transformers原型,并部署在一个六块GPU的测试系统上。实验证明,fMoE比最先进的解决方案将推理延迟降低了47%,并提高了36%的专家命中率。