LLM2D
Fiddler:CPU-GPU 协调以实现混合专家模型的快速推理
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
作者: Keisuke Kamahori, Tian Tang, Yile Gu, Kan Zhu, Baris Kasikci
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2402.07033v3

摘要

arXiv:2402.07033v3 公告类型: 替换交叉 摘要:具有专家混合架构(Mixture-of-Experts, MoE)的大语言模型(Large Language Models, LLMs)在各种任务上表现出令人 promising 的性能。然而,由于模型规模巨大,在资源受限的环境中运行这些模型充满挑战,特别是当 GPU 内存不足时。一些现有系统建议使用 CPU 资源来解决这个问题,但它们要么遭受频繁在 CPU 和 GPU 之间移动数据的巨大开销,要么未能考虑 CPU 和 GPU 的不同特性。本文提出了 Fiddler,这是一种针对有限 GPU 资源的 MoE 模型的资源高效推理系统。Fiddler 通过确定最佳执行策略战略性地利用 CPU 和 GPU 资源。我们的评估表明,与针对特定场景(如单批推理或长预填充)优化的最新系统不同,Fiddler 在所有场景中表现更优。与不同基线相比,Fiddler 在单批推理中的速度提高 1.26 倍,在长预填充处理中提高 1.30 倍,在 beam search 推理中提高 11.57 倍。Fiddler 的代码可在 https://github.com/efeslab/fiddler 上公开获取。