LLM2D

摘要

arXiv:2402.07033v3 公告类型: 替换交叉摘要：具有专家混合架构（Mixture-of-Experts, MoE）的大语言模型（Large Language Models, LLMs）在各种任务上表现出令人 promising 的性能。然而，由于模型规模巨大，在资源受限的环境中运行这些模型充满挑战，特别是当 GPU 内存不足时。一些现有系统建议使用 CPU 资源来解决这个问题，但它们要么遭受频繁在 CPU 和 GPU 之间移动数据的巨大开销，要么未能考虑 CPU 和 GPU 的不同特性。本文提出了 Fiddler，这是一种针对有限 GPU 资源的 MoE 模型的资源高效推理系统。Fiddler 通过确定最佳执行策略战略性地利用 CPU 和 GPU 资源。我们的评估表明，与针对特定场景（如单批推理或长预填充）优化的最新系统不同，Fiddler 在所有场景中表现更优。与不同基线相比，Fiddler 在单批推理中的速度提高 1.26 倍，在长预填充处理中提高 1.30 倍，在 beam search 推理中提高 11.57 倍。Fiddler 的代码可在 https://github.com/efeslab/fiddler 上公开获取。