LLM2D

摘要

arXiv:2503.02354v2 宣布类型: replace-cross 摘要：大型语言模型如GPT-4资源密集，但最近的研究表明，更小的专业专家模型在特定任务上可以超越单一的大模型。协作专家（CoE）方法结合了多个专家模型，提高了生成结果的准确性，并为精确关键的应用程序（如自动电路板质量检查）提供了巨大潜力。然而，部署CoE服务系统因其涉及大量专家而导致内存容量挑战，从而导致频繁在不同内存和存储层切换专家时产生显著的性能开销。我们提出了CoServe，一种在有限内存的异构CPU和GPU上的高效CoE模型服务系统。CoServe通过利用CoE推理中的专家依赖关系减少了不必要的专家切换。CoServe引入了依赖感知请求调度器和依赖感知专家管理以提高推理效率。此外，它还引入了一个离线配置文件，以自动在各种处理器和设备上找到最佳资源分配。在实际智能制造业负载中，CoServe的吞吐量相比最先进的系统提高了4.5到12倍。