LLM2D
D\$^{2}\$MoE:双路由和动态调度以提高设备上基于MoE的LLM服务效率
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
作者: Haodong Wang, Qihua Zhou, Zicong Hong, Song Guo
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15299v1

摘要

arXiv:2504.15299v1 类型: cross 摘要: 专家混合模型(MoE)是一种稀疏的大语言模型(LLMs)变体,旨在在智能能力和计算开销之间取得更好的平衡。尽管MoE有一些优点,但仍然在资源受限的边缘设备上部署过于昂贵,尤其是在需求边缘设备推理服务的情况下。最近的研究工作通常应用模型压缩技术,如量化、剪枝和合并,以限制MoE的复杂性。然而,由于它们预定义的静态模型优化策略,在处理多个请求时,它们不能总是实现所需的性能-开销折中,最终会降低设备上的服务质量。这些限制促使我们提出D$^2$MoE,这是一种算法-系统协同设计框架,通过动态分配最合适的比特宽度给每个专家来匹配多样的任务需求。具体来说,受套娃结构的启发,我们提出了套娃权重量化(MWQ)来渐进式地以比特嵌套的方式压缩专家权重并减少所需的运行时内存。在此之上,我们进一步优化了I/O-计算流水线,并根据我们的热点专家比特优先(HEBF)原则设计了一种启发式调度算法,该算法在受内存预算限制的情况下最大化I/O队列和计算队列之间的专家并行性,从而显著减少了等待专家加载时的闲置时间间隔泡。实际边缘设备上的评估表明,D$^2$MoE在比最新边缘设备推理框架高1.39倍的总体推理吞吐量下,将峰值内存占用量降低了53%,同时仍能保持与INT8同等的服务准确性。