LLM2D

摘要

arXiv:2502.12224v1 宣告类型: 新摘要: 大型语言模型（LLMs）在各种任务中展现了惊人的性能，并且其在边缘场景的应用引起了广泛关注。然而，由于其高内存需求，适合边缘场景的稀疏激活专家混合（MoE）模型受到了相对较少的关注。已经提出了卸载方法来解决这一挑战，但这些方法在专家预测上面临困难。不准确的专家预测会导致推理延迟延长。为了促进MoE模型在边缘场景的应用，我们提出了Fate，这是一种为MoE模型设计的卸载系统，能够在资源受限的环境中实现高效的推理。Fate的设计核心在于，可以有效地利用来自相邻层的门控输入来进行专家预取，从而在不增加额外GPU开销的情况下实现高预测准确性。此外，Fate采用了一种倾向于浅层专家缓存的策略，使专家命中率提高到99%。此外，Fate集成了针对缓存优化和IO效率的定制量化策略。实验结果显示，与按需加载和基于专家激活路径的方法相比，Fate在填充速度上分别实现了4.5倍和1.9倍的加速，在解码速度上分别实现了4.1倍和2.2倍的加速，同时保持了推理质量。此外，Fate的性能改进在不同的内存预算下都是可扩展的。