LLM2D
TPI-LLM:在资源受限的边缘设备上高效地服务 700 亿规模的大型语言模型
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices
作者: Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00531v1

摘要

大型模型推理正从云端转向边缘,因为人们担心用户交互数据的隐私。然而,边缘设备通常面临着计算能力、内存和带宽有限的困境,需要跨多个设备协作才能运行和加速大型语言模型推理。流水线并行是主流解决方案,但在单用户场景中效率低下,而张量并行则难以应对频繁的通信。本文认为,在资源有限的设备上,张量并行比流水线更有效,并提出了一种计算和内存高效的张量并行推理系统,名为TPI-LLM,用于服务700亿规模的模型。TPI-LLM将敏感的原始数据保存在用户的设备中,并引入滑动窗口内存调度器,在推理过程中动态管理层级权重,将磁盘I/O延迟与计算和通信重叠。这使得更大的模型能够在内存有限的设备上平稳运行。我们分析了通信瓶颈,发现链接延迟而非带宽成为主要问题,因此实施了基于星形的全约简算法。通过在模拟和真实测试平台上的大量实验,TPI-LLM在时间到第一个词元和词元延迟方面比Accelerate减少了80%以上,比Transformers和Galaxy减少了90%以上,同时将Llama 2-70B的峰值内存占用减少了90%,只需3.1 GB的内存即可运行700亿规模的模型。