LLM2D

摘要

arXiv:2502.12224v2 宣告类型：替换摘要：大规模语言模型（LLMs）在各种任务中展现了令人印象深刻的性能，并且其在边缘场景中的应用引起了广泛关注。然而，由于其高内存需求，适合边缘场景的稀疏激活混合专家（MoE）模型受到了相对较少的关注。为了应对这一挑战，已有基于卸载的方法提出，但它们在专家预测方面面临困难。不准确的专家预测可能导致推断延迟延长。为了促进MoE模型在边缘场景中的应用，我们提出了一种名为Fate的卸载系统，旨在使MoE模型在资源受限的环境中实现高效推断。Fate背后的关键见解是，相邻层的门输入可以有效地用于专家预取，从而在不增加额外GPU开销的情况下实现高预测准确性。此外，Fate采用了一种倾向于浅层专家的缓存策略，将专家命中率提高到了99%。此外，Fate集成了针对缓存优化和IO效率定制化的量化策略。实验结果表明，与按需加载和基于专家激活路径的方法相比，Fate分别在填充速度上实现了高达4.5倍和1.9倍的加速，以及在解码速度上实现了高达4.1倍和2.2倍的加速，同时保持了推断质量。此外，Fate的性能改进在不同的内存预算下具有可扩展性。