摘要
arXiv:2504.15303v1 公告类型: cross
摘要: 目前,许多公司拥有各种类型的AI加速器,形成了异构集群。有效地利用这些集群进行高吞吐量的大规模语言模型(LLM)推理服务可以显著降低成本并加快任务处理。然而,异构集群上的LLM推理带来了两个主要挑战。首先,不同的部署配置可能导致性能差异巨大。可能的配置数量很多,评估特定设置的有效性复杂。因此,找到最优配置并不是一件容易的事。其次,异构集群中的LLM推理实例具有不同的处理能力,导致处理推理请求的速度不同。评估这些能力并设计一个能够充分利用每个实例潜在能力的请求调度算法是具有挑战性的。在本文中,我们提出了一个在异构集群上的高吞吐量推理服务系统。首先,通过建模资源量和期望吞吐量并使用穷举搜索方法优化部署配置。其次,提出了一种新的机制来调度实例之间的请求,该机制充分考虑了各种实例的不同处理能力。广泛的实验表明,提出的调度器在两个异构集群上分别将吞吐量提高了122.5%和33.6%。