LLM2D
Fate: 快速边缘推理的混合专家模型跨层门控方法
Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate
作者: Zhiyuan Fang, Zicong Hong, Yuegui Huang, Yufeng Lyu, Wuhui Chen, Yue Yu, Fan Yu, Zibin Zheng
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2502.12224v2

摘要

arXiv:2502.12224v2 宣告类型:替换 摘要:大规模语言模型(LLMs)在各种任务中展现了令人印象深刻的性能,并且其在边缘场景中的应用引起了广泛关注。然而,由于其高内存需求,适合边缘场景的稀疏激活混合专家(MoE)模型受到了相对较少的关注。为了应对这一挑战,已有基于卸载的方法提出,但它们在专家预测方面面临困难。不准确的专家预测可能导致推断延迟延长。为了促进MoE模型在边缘场景中的应用,我们提出了一种名为Fate的卸载系统,旨在使MoE模型在资源受限的环境中实现高效推断。Fate背后的关键见解是,相邻层的门输入可以有效地用于专家预取,从而在不增加额外GPU开销的情况下实现高预测准确性。此外,Fate采用了一种倾向于浅层专家的缓存策略,将专家命中率提高到了99%。此外,Fate集成了针对缓存优化和IO效率定制化的量化策略。实验结果表明,与按需加载和基于专家激活路径的方法相比,Fate分别在填充速度上实现了高达4.5倍和1.9倍的加速,以及在解码速度上实现了高达4.1倍和2.2倍的加速,同时保持了推断质量。此外,Fate的性能改进在不同的内存预算下具有可扩展性。