摘要
arXiv:2410.22134v2 宣告类型: 替换-交叉
摘要:大型语言模型的有前途的应用往往受限于边缘设备上可用的受约束的GPU内存容量。专家混合模型(MoE)通过在计算时仅激活模型的一部分参数来解决这一问题。这种方法允许未使用的参数卸载到宿主内存,从而减少了整体GPU内存需求。然而,现有的基于缓存的卸载解决方案对缓存缺失反应性处理,这严重影响了系统性能。在本文中,我们介绍了ProMoE,这是一种新颖的主动缓存系统,利用中间结果预测后续专家的使用情况。通过预先主动获取专家,ProMoE 消除了对缓存缺失的被动处理,将加载时间从关键路径中移除,并减少了与卸载相关的性能开销。我们的评估结果表明,与现有的卸载解决方案相比,ProMoE 分别在填充前和解码阶段实现了平均 2.20 倍(最高 3.21 倍)和 2.07 倍(最高 5.02 倍)的速度提升。