LLM2D

摘要

arXiv:2502.05370v1 类型：交叉摘要：大规模语言模型（LLMs）在内容生成、搜索和推荐以及AI辅助操作等各种应用中取得了巨大的成功。为了降低训练成本，专家混排（MoE）架构已成为现代LLMs的一个流行基础结构。然而，尽管存在这些优点，基于MoE的LLMs在提供服务时由于专家稀疏激活而导致严重的内存效率低下。最近的研究提出了将未激活的专家从GPU内存卸载到CPU内存，以提高MoE模型提供的服务效率。然而，由于粗粒度的设计，它们要么引入了高推理延迟，要么引入了高模型内存占用。为了在MoE提供服务中平衡延迟和内存之间的trade-off，我们提出了fMoE，这是一个细粒度专家卸载系统，能够实现低推理延迟和内存效率。我们设计fMoE从MoE模型中提取细粒度的专家选择模式，以及从输入提示中提取语义提示，以有效地指导专家预取、缓存和卸载决策。fMoE基于HuggingFace Transformers原型，并部署在一个六块GPU的测试系统上。实验证明，fMoE比最先进的解决方案将推理延迟降低了47%，并提高了36%的专家命中率。