LLM2D

摘要

大型模型推理正从云端转向边缘，因为人们担心用户交互数据的隐私。然而，边缘设备通常面临着计算能力、内存和带宽有限的困境，需要跨多个设备协作才能运行和加速大型语言模型推理。流水线并行是主流解决方案，但在单用户场景中效率低下，而张量并行则难以应对频繁的通信。本文认为，在资源有限的设备上，张量并行比流水线更有效，并提出了一种计算和内存高效的张量并行推理系统，名为TPI-LLM，用于服务700亿规模的模型。TPI-LLM将敏感的原始数据保存在用户的设备中，并引入滑动窗口内存调度器，在推理过程中动态管理层级权重，将磁盘I/O延迟与计算和通信重叠。这使得更大的模型能够在内存有限的设备上平稳运行。我们分析了通信瓶颈，发现链接延迟而非带宽成为主要问题，因此实施了基于星形的全约简算法。通过在模拟和真实测试平台上的大量实验，TPI-LLM在时间到第一个词元和词元延迟方面比Accelerate减少了80%以上，比Transformers和Galaxy减少了90%以上，同时将Llama 2-70B的峰值内存占用减少了90%，只需3.1 GB的内存即可运行700亿规模的模型。