LLM2D

摘要

arXiv:2502.06888v1 宣告类型: cross 摘要: 专家混合（MoE）因其独特的稀疏结构，能够在不显著增加计算成本的情况下将语言模型扩展到万亿参数级别。然而，巨大的参数量为推理带来了挑战，因为GPU内存的增长无法跟上参数的增长速度。尽管卸载技术利用CPU和磁盘的内存，并行化I/O和计算以提高效率，但在MoE模型中每个专家的计算量通常少于I/O，导致管道中出现大量瓶颈。因此，我们提出了Klotski，这是一种高效的MoE推理引擎，通过一种新颖的专家感知多批处理管道范式显著减少了管道中的瓶颈。所提出的范式使用批处理处理来延长当前层的计算时间，使其与下一层的加载时间重叠。尽管这一理念已被成功应用于密集模型中，但在MoE中更多的批次可能会激活更多的专家，导致更长的加载时间和更多的瓶颈。因此，与传统方法不同，我们根据不同批次数量下专家异构的计算和I/O需求及其激活模式来协调它们的推理顺序，以平衡计算和I/O时间，从而最小化瓶颈。此外，为了适应不同的硬件环境和模型，我们设计了一种感知约束的I/O-计算规划器和一种意识相关性专家预取器，以生成一个最小化管道瓶颈的调度方案。实验结果表明，Klotski在吞吐量-延迟折衷方面优于最先进的技术，吞吐量提高了高达85.12倍。