LLM2D
木星:快速且资源高效的边缘设备上生成型大语言模型协作推理
Jupiter: Fast and Resource-Efficient Collaborative Inference of Generative LLMs on Edge Devices
作者: Shengyuan Ye, Bei Ouyang, Liekang Zeng, Tianyi Qian, Xiaowen Chu, Jian Tang, Xu Chen
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08242v1

摘要

arXiv:2504.08242v1 交叉类型:跨领域 摘要:生成型大规模语言模型(LLMs)因其在各种AI任务中的出色能力而受到广泛关注。传统上部署在云数据中心的LLMs现在越来越多地转向更易于访问的边缘平台,以保护敏感用户数据和确保隐私保护。然而,个体边缘设备的有限计算资源可能导致推理延迟过长和内存使用过度。尽管现有研究探索了协作边缘计算以突破个体设备的资源瓶颈,但这些解决方案仍然面临巨大的通信开销和边缘资源利用率不足的问题。此外,它们专注于优化预填充阶段,而忽略了生成型LLMs至关重要的自回归解码阶段。为了解决这一问题,我们提出了Jupiter,一种快速、可扩展且资源高效的协作边缘AI系统,用于生成型LLMs推理。Jupiter引入了一种灵活的流水线架构作为基本原理,并根据预填充和解码阶段的不同特性对系统设计进行了差异化设计。对于预填充阶段,Jupiter提交了一种新颖的序列内流水线并行性,并开发了一种细致的并行性规划策略,以最大化资源效率;对于解码阶段,Jupiter设计了一种有效的基于大纲的流水线并行解码机制,并结合了推测性解码,进一步提高了推理加速效果。基于现实部署的广泛评估表明,Jupiter在各种边缘环境配置下显著优于最先进的方法,在实现相同的生成质量的同时,端到端延迟降低了26.1倍。