摘要
arXiv:2503.02354v2 宣布类型: replace-cross
摘要:大型语言模型如GPT-4资源密集,但最近的研究表明,更小的专业专家模型在特定任务上可以超越单一的大模型。协作专家(CoE)方法结合了多个专家模型,提高了生成结果的准确性,并为精确关键的应用程序(如自动电路板质量检查)提供了巨大潜力。然而,部署CoE服务系统因其涉及大量专家而导致内存容量挑战,从而导致频繁在不同内存和存储层切换专家时产生显著的性能开销。
我们提出了CoServe,一种在有限内存的异构CPU和GPU上的高效CoE模型服务系统。CoServe通过利用CoE推理中的专家依赖关系减少了不必要的专家切换。CoServe引入了依赖感知请求调度器和依赖感知专家管理以提高推理效率。此外,它还引入了一个离线配置文件,以自动在各种处理器和设备上找到最佳资源分配。在实际智能制造业负载中,CoServe的吞吐量相比最先进的系统提高了4.5到12倍。