摘要
arXiv:2502.12224v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在各种任务中展现了惊人的性能,并且其在边缘场景的应用引起了广泛关注。然而,由于其高内存需求,适合边缘场景的稀疏激活专家混合(MoE)模型受到了相对较少的关注。已经提出了卸载方法来解决这一挑战,但这些方法在专家预测上面临困难。不准确的专家预测会导致推理延迟延长。为了促进MoE模型在边缘场景的应用,我们提出了Fate,这是一种为MoE模型设计的卸载系统,能够在资源受限的环境中实现高效的推理。Fate的设计核心在于,可以有效地利用来自相邻层的门控输入来进行专家预取,从而在不增加额外GPU开销的情况下实现高预测准确性。此外,Fate采用了一种倾向于浅层专家缓存的策略,使专家命中率提高到99%。此外,Fate集成了针对缓存优化和IO效率的定制量化策略。实验结果显示,与按需加载和基于专家激活路径的方法相比,Fate在填充速度上分别实现了4.5倍和1.9倍的加速,在解码速度上分别实现了4.1倍和2.2倍的加速,同时保持了推理质量。此外,Fate的性能改进在不同的内存预算下都是可扩展的。