LLM2D
Splitwiser: 有限资源下的高效 LM 推理
Splitwiser: Efficient LM inference with constrained resources
作者: Asad Aali, Adney Cardoza, Melissa Capo
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03763v1

摘要

arXiv:2505.03763v1 类型: cross 摘要:高效推理大型语言模型(LLM)仍然是一个关键挑战,主要包含两个阶段:计算密集型的提示计算和内存密集型的标记生成。尽管现有的一些批处理和调度技术,标记生成阶段仍然无法充分利用计算资源,尤其是在与提示计算阶段相比时更是如此。为了应对这些挑战,我们提出了一种名为Splitwiser的方法,该方法将一个LLM推理请求的两个阶段分配到同一块GPU上,从而减少开销并提高内存访问和缓存利用率。通过消除设备之间传输数据的需要,Splitwiser旨在最小化与网络相关的开销。在这份报告中,我们描述了我们提出的基本管道架构,同时分享了初步结果和分析。我们将在两个广泛使用的独立LLM架构上实现我们提出的并行处理设计:Huggingface和vLLM。我们开源了相应的实现代码:1) Huggingface (https://github.com/asad-aali/splitwiser),2) vLLM (https://github.com/adney11/vllm-sysml)。