LLM2D
驯服巨匠:高效LLM推理服务综述
Taming the Titans: A Survey of Efficient LLM Inference Serving
作者: Ranran Zhen, Juntao Li, Yixin Ji, Zhenlin Yang, Tong Liu, Qingrong Xia, Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19720v1

摘要

arXiv:2504.19720v1 交叉公告类型 摘要:生成人工智能(Generative AI)中的大型语言模型(LLMs)取得了显著进展,演变成广泛应用于各个领域和应用的复杂多用途工具。然而,由于其庞大的参数数量导致的巨大内存开销,以及注意力机制带来的高计算需求,使得实现LLM推理服务的低延迟和高吞吐量面临重大挑战。近期,由突破性研究驱动的进展极大地加速了这一领域的进步。本文对这些方法进行了全面综述,涵盖了基本的实例级方法、深入的集群级策略、新兴场景方向以及其他一些但同样重要的领域。在实例级别,我们回顾了模型放置、请求调度、解码长度预测、存储管理以及分层概念。在集群级别,我们探讨了GPU集群部署、多实例负载均衡和云服务解决方案。对于新兴场景,我们围绕具体的任务、模块和辅助方法组织讨论。为了确保全面的概览,我们还强调了几种专门但至关重要的领域。最后,我们概述了潜在的研究方向,以进一步推进LLM推理服务的领域。