LLM2D

摘要

arXiv:2504.19720v1 交叉公告类型摘要：生成人工智能（Generative AI）中的大型语言模型（LLMs）取得了显著进展，演变成广泛应用于各个领域和应用的复杂多用途工具。然而，由于其庞大的参数数量导致的巨大内存开销，以及注意力机制带来的高计算需求，使得实现LLM推理服务的低延迟和高吞吐量面临重大挑战。近期，由突破性研究驱动的进展极大地加速了这一领域的进步。本文对这些方法进行了全面综述，涵盖了基本的实例级方法、深入的集群级策略、新兴场景方向以及其他一些但同样重要的领域。在实例级别，我们回顾了模型放置、请求调度、解码长度预测、存储管理以及分层概念。在集群级别，我们探讨了GPU集群部署、多实例负载均衡和云服务解决方案。对于新兴场景，我们围绕具体的任务、模块和辅助方法组织讨论。为了确保全面的概览，我们还强调了几种专门但至关重要的领域。最后，我们概述了潜在的研究方向，以进一步推进LLM推理服务的领域。