摘要
大型语言模型 (LLM) 凭借其多功能性和对各种任务的实用性,已在科学和工业领域得到广泛应用。然而,大规模部署和服务这些模型以实现最佳吞吐量和延迟仍然是一个重大挑战,这主要是因为LLM对计算和内存的需求很高。可以通过路由机制将针对特定任务优化的专用模型组合起来,从而创建一个模块化推理系统。本文介绍了 Expert Router,这是一种可扩展的路由架构,可将提示定向到专门的专家模型。我们对多种 Expert Router 配置进行了表征,包括在最多 1000 个并发用户下使用量化和非量化权重的不同 LLama 3 模型。我们的研究结果表明,Expert Router 引入了最小的延迟开销,其中专家模型的配置是性能结果的主要决定因素。高参数专家模型在中等并发级别下可提供稳定的吞吐量和延迟。相比之下,与张量并行基线模型相比,较小的专家模型在更广泛的并发用户范围内保持竞争力。这突出了 Expert Router 在高效且可扩展的 LLM 部署方面的潜力。